Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Unindo um dataframe de centelha grande e ginormous

Eu tenho dois quadros de dados, o DF1 tem 6 milhões de linhas, o DF2 tem 1 bilhão. Eu tentei o padrãodf1.join(df2,df1("id")<=>df2("id2")), mas a memória está acabando. O df1 é muito grande para ser colocado em uma junção de transmissão. Eu até ...

1 a resposta

Convertendo uma string para dobrar em um dataframe

Eu construí um quadro de dados usandoconcat que produz uma string. import sqlContext.implicits._ val df = sc.parallelize(Seq((1.0, 2.0), (3.0, 4.0))).toDF("k", "v") df.registerTempTable("df") val dfConcat = df.select(concat($"k", lit(","), ...

1 a resposta

Valor do Spark Accumulator não lido pela tarefa

Estou inicializando um acumulador final Accumulator<Integer> accum = sc.accumulator(0); E, enquanto estiver na função de mapa, estou tentando incrementar o acumulador, usando o valor do acumulador para definir uma variável. JavaRDD<UserSetGet> ...

2 a resposta

Como obter probabilidades de classificação no MultilayerPerceptronClassifier?

Isso parece mais relacionado a:Como obter a probabilidade por exemplo nos modelos de classificação em ...

3 a resposta

devo pré-instalar pacotes cran r nos nós de trabalho ao usar o sparkr

Eu quero usar pacotes r no cran, comoforecast etc com sparkr e encontre dois problemas a seguir. Devo pré-instalar todos esses pacotes nos nós de trabalho? Mas quando eu li o código fonte do sparkeste ...

2 a resposta

Como avaliar o modelo spark.ml sem DataFrames / SparkContext?

Com o Spark MLLib, eu construí um modelo (comoRandomForest) e, em seguida, foi possível avaliá-lo fora do Spark, carregando o modelo e usandopredict nele passando um vetor de recursos. Parece que com o Spark ML,predict agora é chamadotransform e ...

3 a resposta

Como passo o argumento do programa para a função principal na execução de envio de spark com um JAR?

Sei que essa é uma pergunta trivial, mas não consegui encontrar a resposta na internet. Estou tentando executar uma classe Java com omain função com argumentos do programa (String[] args) No entanto, quando envio o trabalho usandospark-submit e ...

1 a resposta

Como filtrar com base no valor do array no PySpark?

Meu esquema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

5 a resposta

Exceção do Spark: tarefa falhou ao gravar linhas

Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...

2 a resposta

Soma valores de PairRDD

Eu tenho um RDD do tipo: dataset :org.apache.spark.rdd.RDD[(String, Double)] = MapPartitionRDD[26]O que é equivalente a(Pedro, 0.0833), (Hello, 0.001828) ... Eu gostaria de somar tudo, o valor,0.0833+0.001828.. mas não consigo encontrar uma ...