Você é muito ativo! É ótimo!

Adicionando parte da coluna Esquema pai ao filho no json aninhado no quadro de dados do spark

Eu tenho abaixo xml que eu estou tentando carregar para desencadear quadro de dados. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...

Como compor o nome da coluna usando o valor de outra coluna para withColumn no Scala Spark

Estou tentando adicionar uma nova coluna a umDataFrame. O valor desta coluna é o valor de outra coluna cujo nome depende de outras colunas da mesmaDataFrame. Por exemplo, dado o seguinte: +---+---+----+----+ | A| B| A_1| B_2| ...

Como usar o COGROUP para grandes conjuntos de dados

Eu tenho doisrdd's nomeadamenteval tab_a: RDD[(String, String)] eval tab_b: RDD[(String, String)] estou a usarcogroup para esses conjuntos de dados como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { ...

Como usar Column.isin com coluna de matriz na junção?

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...

apache-spark

pyspark spark-dataframe apache-spark scala

Como melhorar a velocidade de junção de transmissão com condição entre no Spark

Eu tenho dois quadros de dados A e B. A é grande (100 G) e B é relativamente pequeno (100 M). O número de partição de A é 8 e o número de partição de B é 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")A velocidade é ...

apache-spark pyspark pyspark-sql

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

pyspark apache-spark pyspark-sql spark-dataframe

Coluna Spark Dataframe com o último caractere de outra coluna

Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...