Resultados da pesquisa a pedido "apache-spark"
Como adicionar uma coluna constante em um Spark DataFrame?
Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...
Organização do código Spark e práticas recomendadas [fechado]
Assim, depois de passar muitos anos em um mundo orientado a objetos com reutilização de código, padrões de design e práticas recomendadas sempre levadas em consideração, me deparo um pouco com a organização e a reutilização de código no mundo do ...
Acenda vários contextos
Em resumo : Cluster EC2: 1 mestre 3 escravos Versão Spark: 1.3.1 Desejo usar a opçãospark.driver.allowMultipleContexts, um contexto local (somente mestre) e um cluster (mestre e escravos). Eu recebo esse erro de stacktrace (a linha 29 é onde ...
no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz
Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...
Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?
Eu sou novo comSpark epyspark. Eu uso o pyspark, depois da minhardd processamento, tentei salvá-lo emhdfs usando osaveAsTextfile() função. Mas eu recebo um 'permissão negada'mensagem de erro porque o pyspark tenta gravarhdfs usando minha conta ...
Partição SparkPor muito mais lento que sem ela
Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...
Spark NullPointerException com saveAsTextFile
Estou recebendo um NPE ao tentar unir e salvar um RDD. O código funciona localmente,e funciona no cluster no shell scala, mas gera o erro ao enviá-lo como um trabalho para o cluster. Eu tentei imprimir usando um take () para ver se o rdd contém ...
Como compactar dois (ou mais) DataFrame no Spark
Eu tenho doisDataFrame a eb. a é como Column 1 | Column 2 abc | 123 cde | 23b é como Column 1 1 2Eu quero fechara eb (ou mais) DataFrames que se torna algo como: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Como eu posso fazer isso?
Achatamento de linhas no Spark
Estou fazendo alguns testes para faísca usando scala. Geralmente lemos arquivos json que precisam ser manipulados como no exemplo a seguir: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Como posso convertê-lo para o ...
O mapa não pode ser serializado no scala?
Eu sou novo no Scala. Como é que a função "map" não é serializável? Como torná-lo serializável? Por exemplo, se meu código for como abaixo: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: Iterator[Int]) : Iterator[Int] = { val ...