Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...

1 a resposta

Organização do código Spark e práticas recomendadas [fechado]

Assim, depois de passar muitos anos em um mundo orientado a objetos com reutilização de código, padrões de design e práticas recomendadas sempre levadas em consideração, me deparo um pouco com a organização e a reutilização de código no mundo do ...

4 a resposta

Acenda vários contextos

Em resumo : Cluster EC2: 1 mestre 3 escravos Versão Spark: 1.3.1 Desejo usar a opçãospark.driver.allowMultipleContexts, um contexto local (somente mestre) e um cluster (mestre e escravos). Eu recebo esse erro de stacktrace (a linha 29 é onde ...

2 a resposta

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...

2 a resposta

Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?

Eu sou novo comSpark epyspark. Eu uso o pyspark, depois da minhardd processamento, tentei salvá-lo emhdfs usando osaveAsTextfile() função. Mas eu recebo um 'permissão negada'mensagem de erro porque o pyspark tenta gravarhdfs usando minha conta ...

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...

1 a resposta

Spark NullPointerException com saveAsTextFile

Estou recebendo um NPE ao tentar unir e salvar um RDD. O código funciona localmente,e funciona no cluster no shell scala, mas gera o erro ao enviá-lo como um trabalho para o cluster. Eu tentei imprimir usando um take () para ver se o rdd contém ...

4 a resposta

Como compactar dois (ou mais) DataFrame no Spark

Eu tenho doisDataFrame a eb. a é como Column 1 | Column 2 abc | 123 cde | 23b é como Column 1 1 2Eu quero fechara eb (ou mais) DataFrames que se torna algo como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Como eu posso fazer isso?

2 a resposta

Achatamento de linhas no Spark

Estou fazendo alguns testes para faísca usando scala. Geralmente lemos arquivos json que precisam ser manipulados como no exemplo a seguir: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Como posso convertê-lo para o ...

3 a resposta

O mapa não pode ser serializado no scala?

Eu sou novo no Scala. Como é que a função "map" não é serializável? Como torná-lo serializável? Por exemplo, se meu código for como abaixo: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: Iterator[Int]) : Iterator[Int] = { val ...