Resultados da pesquisa a pedido "apache-spark"
Ligação de argumento de encerramento do Spark
Estou trabalhando com o Apache Spark em Scala. Eu tenho um problema ao tentar manipular um RDD com dados de um segundo RDD. Estou tentando passar o segundo RDD como argumento para uma função que está sendo 'mapeada' contra o primeiro RDD, mas ...
Melhor maneira de obter o valor máximo em uma coluna de quadro de dados Spark
Estou tentando descobrir a melhor maneira de obter o maior valor em uma coluna de quadro de dados Spark. Considere o seguinte exemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() O que cria: +---+---+ | A| ...
O groupByKey é sempre preferido em relação ao replaceByKey
Eu sempre usoreduceByKey quando eu preciso agrupar dados em RDDs, porque ele realiza uma redução no lado do mapa antes de embaralhar os dados, o que geralmente significa que menos dados são embaralhados e, assim, obtendo melhor desempenho. Mesmo ...
Tratamento de exceções não capturadas no Spark
Estou trabalhando em um aplicativo Spark Streaming baseado em Java que responde a mensagens que vêm de um tópico Kafka. Para cada mensagem, o aplicativo faz algum processamento e grava de volta os resultados em um tópico Kafka diferente. Às ...
Spark: Como mapear Python com Scala ou Java User Defined Functions?
Digamos, por exemplo, que minha equipe escolheu o Python como a linguagem de referência para desenvolver com o Spark. Porém, mais tarde, por razões de desempenho, gostaríamos de desenvolver bibliotecas específicas do Scala ou Java, a fim de ...
O arquivo de propriedades log4j incluído no jar no aplicativo spark é ignorado
Preciso ler um log4j.properties personalizado do src / resources e isso não está funcionando try{ val inStream :InputStream= className.this.getClass.getClassLoader.getResourceAsStream("log4j.properties"); logCfgProps.load(inStream) } catch { ...
O Spark não utiliza todo o núcleo durante a execução de Regressão Linear com SGD
Estou executando o Spark na minha máquina local (16G, 8 núcleos de CPU). Eu estava tentando treinar o modelo de regressão linear em um conjunto de dados de tamanho 300MB. Eu verifiquei as estatísticas da CPU e também os programas em execução, ele ...
O executor Spark no yarn-client não aceita a configuração de contagem de núcleos do executor.
Independentemente da contagem de núcleos do executor spark, o contêiner de fios para o executor não usa mais de 1 núcleo.
Remover partições vazias do Spark RDD
Estou buscando dados do HDFS e os armazenando em um Spark RDD. O Spark cria o número de partições com base no número de blocos HDFS. Isso leva a um grande número de partições vazias que também são processadas durante a tubulação. Para remover ...
diferenciar código de driver e código de trabalho no Apache Spark
No programa Apache Spark, como sabemos qual parte do código será executada no programa driver e qual parte do código será executada nos nós do trabalhador? Atenciosamente