Resultados da pesquisa a pedido "apache-spark"
Unindo um dataframe de centelha grande e ginormous
Eu tenho dois quadros de dados, o DF1 tem 6 milhões de linhas, o DF2 tem 1 bilhão. Eu tentei o padrãodf1.join(df2,df1("id")<=>df2("id2")), mas a memória está acabando. O df1 é muito grande para ser colocado em uma junção de transmissão. Eu até ...
Convertendo uma string para dobrar em um dataframe
Eu construí um quadro de dados usandoconcat que produz uma string. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...
Valor do Spark Accumulator não lido pela tarefa
Estou inicializando um acumulador final Accumulator<Integer> accum = sc.accumulator(0); E, enquanto estiver na função de mapa, estou tentando incrementar o acumulador, usando o valor do acumulador para definir uma variável. JavaRDD<UserSetGet> ...
Como obter probabilidades de classificação no MultilayerPerceptronClassifier?
Isso parece mais relacionado a:Como obter a probabilidade por exemplo nos modelos de classificação em ...
devo pré-instalar pacotes cran r nos nós de trabalho ao usar o sparkr
Eu quero usar pacotes r no cran, comoforecast etc com sparkr e encontre dois problemas a seguir. Devo pré-instalar todos esses pacotes nos nós de trabalho? Mas quando eu li o código fonte do sparkeste ...
Como avaliar o modelo spark.ml sem DataFrames / SparkContext?
Com o Spark MLLib, eu construí um modelo (comoRandomForest) e, em seguida, foi possível avaliá-lo fora do Spark, carregando o modelo e usandopredict nele passando um vetor de recursos. Parece que com o Spark ML,predict agora é chamadotransform e ...
Como passo o argumento do programa para a função principal na execução de envio de spark com um JAR?
Sei que essa é uma pergunta trivial, mas não consegui encontrar a resposta na internet. Estou tentando executar uma classe Java com omain função com argumentos do programa (String[] args) No entanto, quando envio o trabalho usandospark-submit e ...
Como filtrar com base no valor do array no PySpark?
Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...
Exceção do Spark: tarefa falhou ao gravar linhas
Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...
Soma valores de PairRDD
Eu tenho um RDD do tipo: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]O que é equivalente a(Pedro, 0.0833), (Hello, 0.001828) ... Eu gostaria de somar tudo, o valor,0.0833+0.001828.. mas não consigo encontrar uma ...