Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Spark Streaming: Como posso adicionar mais partições ao meu DStream?

Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

2 a resposta

Encontre a linha máxima por grupo no Spark DataFrame

Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...

2 a resposta

spark.ml StringIndexer lança 'rótulo invisível' em fit ()

Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...

5 a resposta

Como evitar colunas duplicadas após ingressar?

Eu tenho dois quadros de dados com as seguintes colunas: df1.columns // Array(ts, id, X1, X2)e df2.columns // Array(ts, id, Y1, Y2)Depois que eu faço val df_combined = df1.join(df2, Seq(ts,id))Termino com as seguintes colunas:Array(ts, id, X1, ...

1 a resposta

A transmissão não ocorre ao ingressar nos quadros de dados no Spark 1.6

Abaixo está o código de exemplo que estou executando. Quando esse trabalho de faísca é executado, as associações ao Dataframe acontecem usando sortmergejoin em vez de broadcastjoin. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...

1 a resposta

Existe uma maneira de embaralhar a coleção no Spark

Preciso embaralhar o arquivo de texto com 2,2 * 10 ^ 9 linhas. Existe uma maneira de carregá-lo no spark, depois embaralhar cada partição em paralelo (para mim, é suficiente embaralhar no escopo da partição) e depois espalhá-lo de volta no arquivo?

1 a resposta

Igualdade de classe de caso no Apache Spark

Por que a correspondência de padrões no Spark não funciona da mesma forma que no Scala? Veja o exemplo abaixo ... funçãof() tenta padronizar a correspondência na classe, que funciona no Scala REPL, mas falha no Spark e resulta em todos ...

1 a resposta

criar JAR para Spark

Eu estou seguindo issoguia [https://spark.apache.org/docs/1.2.0/quick-start.html], mas não consigo executar o Scala no Spark, quando estou tentando criar o JAR comsbt. eu tenhosimple.sbt Como: name := "Simple Project" version := "1.0" ...

1 a resposta

Como passar um valor constante para o Python UDF?

Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...

1 a resposta

carregar bibliotecas externas dentro do código pyspark

Eu tenho um cluster de faíscas que uso no modo local. Eu quero ler um csv com a biblioteca externa databricks spark.csv. Inicio meu aplicativo da seguinte maneira: import os import sys os.environ["SPARK_HOME"] ...