Resultados da pesquisa a pedido "apache-spark-sql"
Semelhança de cosseno do Apache Spark Python sobre DataFrames
Para um sistema de recomendação, eu preciso calcular a semelhança de cosseno entre todas as colunas de um Spark DataFrame inteiro. No Pandas, eu costumava fazer isso: import sklearn.metrics as metrics import pandas as pd df= ...
Adicionando parte da coluna Esquema pai ao filho no json aninhado no quadro de dados do spark
Eu tenho abaixo xml que eu estou tentando carregar para desencadear quadro de dados. <?xml version="1.0"?> <env:ContentEnvelope xsi:schemaLocation="http"> <env:Header> ...
Como compor o nome da coluna usando o valor de outra coluna para withColumn no Scala Spark
Estou tentando adicionar uma nova coluna a umDataFrame. O valor desta coluna é o valor de outra coluna cujo nome depende de outras colunas da mesmaDataFrame. Por exemplo, dado o seguinte: +---+---+----+----+ | A| B| A_1| B_2| ...
Como usar o COGROUP para grandes conjuntos de dados
Eu tenho doisrdd's nomeadamenteval tab_a: RDD[(String, String)] eval tab_b: RDD[(String, String)] estou a usarcogroup para esses conjuntos de dados como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { ...
Como usar Column.isin com coluna de matriz na junção?
case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...
Como melhorar a velocidade de junção de transmissão com condição entre no Spark
Eu tenho dois quadros de dados A e B. A é grande (100 G) e B é relativamente pequeno (100 M). O número de partição de A é 8 e o número de partição de B é 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")A velocidade é ...
Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída
Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...
Coluna Spark Dataframe com o último caractere de outra coluna
Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...
PySpark - obtém o número da linha para cada linha em um grupo
Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...
Diferença entre duas linhas no dataframe Spark
Criei um quadro de dados no Spark, por grupo por coluna1 e data e calculei o valor. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...