Resultados da pesquisa a pedido "apache-spark"
Contagem máxima de colunas do Spark Dataframe
Qual é a contagem máxima de colunas do Spark Dataframe? Tentei obtê-lo da documentação do quadro de dados, mas não consegui encontrá-lo.
Como corrigir java.lang.ClassCastException: não é possível atribuir uma instância de scala.collection.immutable.List ao tipo de campo scala.collection.Seq?
Este erro foi o mais difícil de rastrear. Eu não sei o que está acontecendo. Estou executando um cluster Spark na minha máquina de localização. portanto, todo o cluster spark está sob um host que é127.0.0.1 e eu corro no modo ...
Apache Spark vs Apache Spark 2 [fechado]
Quais são as melhorias que o Apache Spark2 traz em comparação com o Apache Spark? Do ponto de vista da arquiteturaDo ponto de vista da aplicaçãoou mais
Pyspark anexa variável de ambiente do executor
É possível acrescentar um valor ao PITONONA de um trabalhador em faísca? Sei que é possível ir para cada nó do trabalhador, configurar o arquivo spark-env.sh e fazê-lo, mas quero uma abordagem mais flexível Estou tentando usar o método ...
Como realizar a união em dois DataFrames com diferentes quantidades de colunas no spark?
eu tenho 2DataFrames como segue: [/imgs/L4qs0.png] Eu preciso de união assim: [/imgs/mdICY.png] ounionAll A função não funciona porque o número e o nome das colunas são diferentes. Como posso fazer isso?
Como compilar / empacotar o projeto Spark 2.0 com frascos externos e Maven
Desde a versão 2.0, o Apache Spark vem com uma pasta "jars" cheia de arquivos .jar. Obviamente, o Maven fará o download de todos esses frascos ao emitir: mvn -e packageporque, para enviar uma inscrição com spark-submit --class DataFetch ...
Erro: não encontrado: valor aceso / quando - spark scala
Estou usando scala, spark, IntelliJ e maven. Eu usei o código abaixo: val joinCondition = when($"exp.fnal_expr_dt" >= $"exp.nonfnal_expr_dt", $"exp.manr_cd"===$"score.MANR_CD") val score ...
Como forçar o Spark a avaliar as operações do DataFrame em linha
De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...
Como centelha, como funciona a transmissão?
Esta é uma pergunta muito simples: na centelha,broadcast pode ser usado para enviar variáveis aos executores com eficiência. Como é que isso funciona ? Mais precisamente: quando os valores são enviados: assim que eu ligarbroadcastou quando os ...
Executando o EMR Spark com várias contas S3
Eu tenho um trabalho Spark EMR que precisa ler dados do S3 em uma conta e gravar em outra. Dividi meu trabalho em duas etapas. ler dados do S3 (nenhuma credencial é necessária porque meu cluster EMR está na mesma conta). leia os dados no HDFS ...