Resultados da pesquisa a pedido "apache-spark"
Spark: transpor o DataFrame sem agregar
Analisei várias perguntas on-line, mas elas não parecem fazer o que estou tentando alcançar. Estou usando o Apache Spark 2.0.2 com Scala. Eu tenho um quadro de dados: +----------+-----+----+----+----+----+----+ ...
Erro de atributo: dividido em spark sql python usando lambda
No Spark SQL, estou usando Python e estou tentando trabalhar na saída RDD abaixo do sql. É uma lista de tweets. Preciso dividir palavras e extrair o @, mas ao usar o mapa e tentar dividir por espaços, estou recebendo a mensagem de ...
O valor da configuração "spark.yarn.executor.memoryOverhead"?
O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?
FPgrowth computing association em pyspark vs scala
Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...
Como converter o carimbo de data e hora em formato Data no DataFrame?
eu tenho umDataFrame comTimestamp coluna, que eu preciso converter comoDate formato. Existe alguma função Spark SQL disponível para isso?
pyspark: NameError: o nome 'spark' não está definido
Estou copiando o exemplo pyspark.ml do site oficial do documento: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer [http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer] data ...
A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?
Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...
Spark streaming no dataproc lança FileNotFoundException
Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...
Spark ML VectorAssembler retorna uma saída estranha
Estou experimentando um comportamento muito estranho deVectorAssembler e eu queria saber se mais alguém viu isso. Meu cenário é bem direto. Eu analiso dados de umCSV arquivo onde eu tenho algum padrãoInt eDouble campos e também calculo algumas ...
O Spark não imprime saídas no console na função map
Eu tenho um aplicativo Spark simples em execução no modo de cluster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...