Resultados da pesquisa a pedido "apache-spark"

Analisei várias perguntas on-line, mas elas não parecem fazer o que estou tentando alcançar. Estou usando o Apache Spark 2.0.2 com Scala. Eu tenho um quadro de dados: +----------+-----+----+----+----+----+----+ ...

python sql attributes split

2 a resposta

Erro de atributo: dividido em spark sql python usando lambda

No Spark SQL, estou usando Python e estou tentando trabalhar na saída RDD abaixo do sql. É uma lista de tweets. Preciso dividir palavras e extrair o @, mas ao usar o mapa e tentar dividir por espaços, estou recebendo a mensagem de ...

apache-spark-sql spark-streaming apache-spark-mllib

2 a resposta

O valor da configuração "spark.yarn.executor.memoryOverhead"?

O valor despark.yarn.executor.memoryOverhead em um trabalho do Spark com YARN deve ser alocado para o aplicativo ou apenas o valor máximo?

scala pyspark apache-spark-sql apache-spark-mllib

2 a resposta

FPgrowth computing association em pyspark vs scala

Usando : http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html [http://spark.apache.org/docs/1.6.1/mllib-frequent-pattern-mining.html] Código Python: from pyspark.mllib.fpm import FPGrowth model = ...

apache-spark-sql

3 a resposta

Como converter o carimbo de data e hora em formato Data no DataFrame?

eu tenho umDataFrame comTimestamp coluna, que eu preciso converter comoDate formato. Existe alguma função Spark SQL disponível para isso?

distributed-computing machine-learning apache-spark-ml pyspark

2 a resposta

pyspark: NameError: o nome 'spark' não está definido

Estou copiando o exemplo pyspark.ml do site oficial do documento: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer [http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer] data ...

apache-spark-sql spark-dataframe parquet

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

google-cloud-dataproc

2 a resposta

Spark streaming no dataproc lança FileNotFoundException

Quando tento enviar um trabalho de fluxo contínuo para o cluster do google dataproc, recebo esta exceção: 16/12/13 00:44:20 ERROR org.apache.spark.SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: ...

apache-spark-mllib apache-spark-ml scala

1 a resposta

Spark ML VectorAssembler retorna uma saída estranha

Estou experimentando um comportamento muito estranho deVectorAssembler e eu queria saber se mais alguém viu isso. Meu cenário é bem direto. Eu analiso dados de umCSV arquivo onde eu tenho algum padrãoInt eDouble campos e também calculo algumas ...

spark-streaming scala

2 a resposta

O Spark não imprime saídas no console na função map

Eu tenho um aplicativo Spark simples em execução no modo de cluster. val funcGSSNFilterHeader = (x: String) => { println(!x.contains("servedMSISDN") !x.contains("servedMSISDN") } val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds)) ...

Página 33 do 167

31 323334 35

Resultados da pesquisa a pedido "apache-spark"

Spark: transpor o DataFrame sem agregar

Erro de atributo: dividido em spark sql python usando lambda

O valor da configuração "spark.yarn.executor.memoryOverhead"?

Tags populares

FPgrowth computing association em pyspark vs scala

Como converter o carimbo de data e hora em formato Data no DataFrame?

pyspark: NameError: o nome 'spark' não está definido

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Spark streaming no dataproc lança FileNotFoundException

Spark ML VectorAssembler retorna uma saída estranha

O Spark não imprime saídas no console na função map

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares