Resultados da pesquisa a pedido "apache-spark"
chamada de distinta e mapa juntos joga NPE na biblioteca de faísca
Eu não tenho certeza se isso é um bug, então se você fizer algo assim
Configuração de ignição: SPARK_MEM vs. SPARK_WORKER_MEMORY
Em spark-env.sh, é possível configurar as seguintes variáveis de ambiente:
Spark: qual é a melhor estratégia para unir um RDD de duas tuplas com RDD de chave única?
Eu tenho dois RDD's que quero juntar e eles se parecem com isso:
Definindo textinputformat.record.delimiter em faísca
No Spark, é possível definir algumas configurações de hadoop como, por ex.
O que vai acontecer se eu não tiver memória suficiente?
Sou novo no Spark e descobri que a documentação diz que o Spark carregará os dados na memória para tornar os algoritmos de iteração mais rápidos.Mas e se eu ...
Como usar o Hadoop InputFormats no Apache Spark?
Eu tenho aulaImageInputFormat no Hadoop, que lê imagens do HDFS. Como usar meu InputFormat no Spark? Aqui está o meuImageInputFormat: public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> { @Override public ...
Lista (ou iterador) de tuplas retornadas pelo MAP (PySpark)
Eu tenho um método mapeador: def mapper(value): ... for key, value in some_list: yield key, valueo que eu preciso não está muito longe do exemplo comum de contagem de palavras, na verdade. Eu já tenho um script de trabalho, mas apenas se o ...