Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark: transpor o DataFrame sem agregar

Analisei várias perguntas on-line, mas elas não parecem fazer o que estou tentando alcançar. Estou usando o Apache Spark 2.0.2 com Scala. Eu tenho um quadro de dados: +----------+-----+----+----+----+----+----+ ...

2 a resposta

Erro de atributo: dividido em spark sql python usando lambda

No Spark SQL, estou usando Python e estou tentando trabalhar na saída RDD abaixo do sql. É uma lista de tweets. Preciso dividir palavras e extrair o @, mas ao usar o mapa e tentar dividir por espaços, estou recebendo a mensagem de ...

2 a resposta

O valor da configuração "spark.yarn.executor.memoryOverhead"?

O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?

2 a resposta

FPgrowth computing association em pyspark vs scala

Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...

3 a resposta

Como converter o carimbo de data e hora em formato Data no DataFrame?

eu tenho umDataFrame comTimestamp coluna, que eu preciso converter comoDate formato. Existe alguma função Spark SQL disponível para isso?

2 a resposta

pyspark: NameError: o nome 'spark' não está definido

Estou copiando o exemplo pyspark.ml do site oficial do documento: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer [http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer] data ...

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

2 a resposta

Spark streaming no dataproc lança FileNotFoundException

Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

1 a resposta

Spark ML VectorAssembler retorna uma saída estranha

Estou experimentando um comportamento muito estranho deVectorAssembler e eu queria saber se mais alguém viu isso. Meu cenário é bem direto. Eu analiso dados de umCSV arquivo onde eu tenho algum padrãoInt eDouble campos e também calculo algumas ...

2 a resposta

O Spark não imprime saídas no console na função map

Eu tenho um aplicativo Spark simples em execução no modo de cluster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...