Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Entenda o fechamento em faísca

Nos modos de cluster, como escrever uma função de fechamentof para permitir que todo trabalhador acesse a cópia da variávelN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...

1 a resposta

park operação de quadro de dados no nível de linha e coluna usando scala

Quadro de dados original 0,2 0,3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...

1 a resposta

particionador do @Spark DataFrame é None

[Novo no Spark] Depois de criar um DataFrame, estou tentando particioná-lo com base em uma coluna no DataFrame. Quando verifico o particionador usandodata_frame.rdd.partitioner Eu receboNenhu como saída. Particionamento usando ...

0 a resposta

Como comparar os cabeçalhos do df com outros cabeçalhos df usando o Fuzzy Matching no pyspark?

Criei 3 quadros de dados executando o seguinte código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| Comparei os cabeçalhos dos ...

2 a resposta

get primeiros N elementos da coluna ArrayType do dataframe no pyspark

Tenho um spark dataframe com linhas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]gora, quero manter apenas os 2 primeiros elementos da coluna da matri 1 | [a, b] 2 | [d, e] 3 | [g, h]Como isso pode ser alcançado? ota - Lembre-se de que não ...

1 a resposta

Como chamar esses métodos de objetos em um mapa?

Problem: Eu tenho que chamar os métodos Objects que estão armazenados em um mapa, para uma determinada chave como fazê-lo?Code: trait Processor00 { def process(x:String): Unit } case class Processor20() extends Processor0 { override def ...

1 a resposta

Como corrigir este erro "não encontrado: valor BMValsProcessor"

Como corrigir este erro neste código trait Processor00 { def process(oraOptionDfConfig: DataFrameReader, sparkSession: SparkSession ): Unit } class BMValsProcessor extends Processor { def process(oraOptionDfConfig: DataFrameReader, sparkSession: ...

1 a resposta

Particionando um grande conjunto de dados inclinado no S3 com o método partitionBy do Spark

Estou tentando gravar um grande conjunto de dados particionado em disco com o Spark e opartitionBy algoritmo @ está lutando com as duas abordagens que tente As partições são muito inclinadas - algumas são enormes e outras são pequena Problem # ...

2 a resposta

Produto cumulativo no Spark?

Tento implementar um produto cumulativo no Spark scala, mas realmente não sei como fazê-lo. Eu tenho o seguinte quadro de dados: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...

2 a resposta

Converter colunas do quadro de dados Spark com uma matriz de objetos JSON em várias linhas

Tenho dados JSON de streaming, cuja estrutura pode ser descrita com a classe de caso abaixo case class Hello(A: String, B: Array[Map[String, String]])Os dados de amostra para o mesmo são os seguintes | A | B | ...