Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Ligação de argumento de encerramento do Spark

Estou trabalhando com o Apache Spark em Scala. Eu tenho um problema ao tentar manipular um RDD com dados de um segundo RDD. Estou tentando passar o segundo RDD como argumento para uma função que está sendo 'mapeada' contra o primeiro RDD, mas ...

9 a resposta

Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark

Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...

3 a resposta

O groupByKey é sempre preferido em relação ao replaceByKey

Eu sempre usoreduceByKey quando eu preciso agrupar dados em RDDs, porque ele realiza uma redução no lado do mapa antes de embaralhar os dados, o que geralmente significa que menos dados são embaralhados e, assim, obtendo melhor desempenho. Mesmo ...

2 a resposta

Tratamento de exceções não capturadas no Spark

Estou trabalhando em um aplicativo Spark Streaming baseado em Java que responde a mensagens que vêm de um tópico Kafka. Para cada mensagem, o aplicativo faz algum processamento e grava de volta os resultados em um tópico Kafka diferente. Às ...

1 a resposta

Spark: Como mapear Python com Scala ou Java User Defined Functions?

Digamos, por exemplo, que minha equipe escolheu o Python como a linguagem de referência para desenvolver com o Spark. Porém, mais tarde, por razões de desempenho, gostaríamos de desenvolver bibliotecas específicas do Scala ou Java, a fim de ...

1 a resposta

O arquivo de propriedades log4j incluído no jar no aplicativo spark é ignorado

Preciso ler um log4j.properties personalizado do src / resources e isso não está funcionando try{ val inStream :InputStream= className.this.getClass.getClassLoader.getResourceAsStream("log4j.properties"); logCfgProps.load(inStream) } catch { ...

1 a resposta

O Spark não utiliza todo o núcleo durante a execução de Regressão Linear com SGD

Estou executando o Spark na minha máquina local (16G, 8 núcleos de CPU). Eu estava tentando treinar o modelo de regressão linear em um conjunto de dados de tamanho 300MB. Eu verifiquei as estatísticas da CPU e também os programas em execução, ele ...

1 a resposta

O executor Spark no yarn-client não aceita a configuração de contagem de núcleos do executor.

Independentemente da contagem de núcleos do executor spark, o contêiner de fios para o executor não usa mais de 1 núcleo.

1 a resposta

Remover partições vazias do Spark RDD

Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...

2 a resposta

diferenciar código de driver e código de trabalho no Apache Spark

No programa Apache Spark, como sabemos qual parte do código será executada no programa driver e qual parte do código será executada nos nós do trabalhador? Atenciosamente