Resultados da pesquisa a pedido "apache-spark"

Eu quero adicionar uma coluna em umDataFrame com algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando usowithColumn do seguinte modo: dt.withColumn('new_column', ...

functional-programming code-organization

1 a resposta

Organização do código Spark e práticas recomendadas [fechado]

Assim, depois de passar muitos anos em um mundo orientado a objetos com reutilização de código, padrões de design e práticas recomendadas sempre levadas em consideração, me deparo um pouco com a organização e a reutilização de código no mundo do ...

scala

4 a resposta

Acenda vários contextos

Em resumo : Cluster EC2: 1 mestre 3 escravos Versão Spark: 1.3.1 Desejo usar a opçãospark.driver.allowMultipleContexts, um contexto local (somente mestre) e um cluster (mestre e escravos). Eu recebo esse erro de stacktrace (a linha 29 é onde ...

apache-spark-sql amazon-web-services emr

2 a resposta

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Estou lançando meu hiveserver2 baseado em spark no Amazon EMR, que possui uma dependência extra de caminho de classe. Devido a esse bug no Amazon ...

pyspark

2 a resposta

Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?

Eu sou novo comSpark epyspark. Eu uso o pyspark, depois da minhardd processamento, tentei salvá-lo emhdfs usando osaveAsTextfile() função. Mas eu recebo um 'permissão negada'mensagem de erro porque o pyspark tenta gravarhdfs usando minha conta ...

apache-spark-sql parquet scala

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...

nullpointerexception hadoop java scala

1 a resposta

Spark NullPointerException com saveAsTextFile

Estou recebendo um NPE ao tentar unir e salvar um RDD. O código funciona localmente,e funciona no cluster no shell scala, mas gera o erro ao enviá-lo como um trabalho para o cluster. Eu tentei imprimir usando um take () para ver se o rdd contém ...

scala dataframe apache-spark-sql

4 a resposta

Como compactar dois (ou mais) DataFrame no Spark

scala apache-spark-sql distributed-computing

2 a resposta

Achatamento de linhas no Spark

Estou fazendo alguns testes para faísca usando scala. Geralmente lemos arquivos json que precisam ser manipulados como no exemplo a seguir: test.json: {"a":1,"b":[2,3]} val test = sqlContext.read.json("test.json")Como posso convertê-lo para o ...

serialization scala

3 a resposta

O mapa não pode ser serializado no scala?

Eu sou novo no Scala. Como é que a função "map" não é serializável? Como torná-lo serializável? Por exemplo, se meu código for como abaixo: val data = sc.parallelize(List(1,4,3,5,2,3,5)) def myfunc(iter: Iterator[Int]) : Iterator[Int] = { val ...

Página 126 do 167

124 125126127 128

Resultados da pesquisa a pedido "apache-spark"

Como adicionar uma coluna constante em um Spark DataFrame?

Organização do código Spark e práticas recomendadas [fechado]

Acenda vários contextos

Tags populares

no Amazon EMR 4.0.0, a configuração /etc/spark/conf/spark-env.conf é ineficaz

Como posso alterar a configuração SparkContext.sparkUser () (no pyspark)?

Partição SparkPor muito mais lento que sem ela

Spark NullPointerException com saveAsTextFile

Como compactar dois (ou mais) DataFrame no Spark

Achatamento de linhas no Spark

O mapa não pode ser serializado no scala?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares