Resultados da pesquisa a pedido "apache-spark"
Spark Streaming: Como posso adicionar mais partições ao meu DStream?
Eu tenho um aplicativo de streaming de centelha que se parece com isso: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...
Encontre a linha máxima por grupo no Spark DataFrame
Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...
spark.ml StringIndexer lança 'rótulo invisível' em fit ()
Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...
Como evitar colunas duplicadas após ingressar?
Eu tenho dois quadros de dados com as seguintes colunas: df1.columns // Array(ts, id, X1, X2)e df2.columns // Array(ts, id, Y1, Y2)Depois que eu faço val df_combined = df1.join(df2, Seq(ts,id))Termino com as seguintes colunas:Array(ts, id, X1, ...
A transmissão não ocorre ao ingressar nos quadros de dados no Spark 1.6
Abaixo está o código de exemplo que estou executando. Quando esse trabalho de faísca é executado, as associações ao Dataframe acontecem usando sortmergejoin em vez de broadcastjoin. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...
Existe uma maneira de embaralhar a coleção no Spark
Preciso embaralhar o arquivo de texto com 2,2 * 10 ^ 9 linhas. Existe uma maneira de carregá-lo no spark, depois embaralhar cada partição em paralelo (para mim, é suficiente embaralhar no escopo da partição) e depois espalhá-lo de volta no arquivo?
Igualdade de classe de caso no Apache Spark
Por que a correspondência de padrões no Spark não funciona da mesma forma que no Scala? Veja o exemplo abaixo ... funçãof() tenta padronizar a correspondência na classe, que funciona no Scala REPL, mas falha no Spark e resulta em todos ...
criar JAR para Spark
Eu estou seguindo issoguia [https://spark.apache.org/docs/1.2.0/quick-start.html], mas não consigo executar o Scala no Spark, quando estou tentando criar o JAR comsbt. eu tenhosimple.sbt Como: name := "Simple Project" version := "1.0" ...
Como passar um valor constante para o Python UDF?
Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...
carregar bibliotecas externas dentro do código pyspark
Eu tenho um cluster de faíscas que uso no modo local. Eu quero ler um csv com a biblioteca externa databricks spark.csv. Inicio meu aplicativo da seguinte maneira: import os import sys os.environ["SPARK_HOME"] ...