Resultados da pesquisa a pedido "apache-spark"

3 a resposta

Quadros de dados Spark (scala) - Verifique se as strings na coluna contêm itens de um conjunto

Eu sou muito novo no scala and spark e tenho tentado encontrar uma solução para esse problema o dia todo - isso está me afetando. Tentei 20 variações diferentes do código a seguir e continuo recebendotype mismatch erros quando tento ...

1 a resposta

Correspondência eficiente de strings no Apache Spark

Usando uma ferramenta de OCR, extraí textos de capturas de tela (cerca de 1 a 5 frases cada). No entanto, ao verificar manualmente o texto extraído, notei vários erros que ocorrem periodicamente. Dado o texto "Olá! Gosto muito do Spark ❤!", ...

1 a resposta

Como usar Column.isin com coluna de matriz na junção?

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

1 a resposta

Como melhorar a velocidade de junção de transmissão com condição entre no Spark

Eu tenho dois quadros de dados A e B. A é grande (100 G) e B é relativamente pequeno (100 M). O número de partição de A é 8 e o número de partição de B é 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")A velocidade é ...

2 a resposta

Coluna Spark Dataframe com o último caractere de outra coluna

Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...

2 a resposta

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...

1 a resposta

Sparklyr - Alterar nomes de colunas em um dataframe Spark

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)retorna: > head(df_tbl) Error: `new1`, `new2` contains unknown variablesExiste uma maneira fácil de alterar os ...

3 a resposta

Diferença entre duas linhas no dataframe Spark

Criei um quadro de dados no Spark, por grupo por coluna1 e data e calculei o valor. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...

1 a resposta

API e Paralelismo de Streaming Direto Kafka do Spark-Streaming

Entendi o mapeamento automatizado que existe entre uma Partição Kafka e uma partição Spark RDD e, finalmente, a Tarefa Spark. No entanto, para dimensionar corretamente meu executor (em número de núcleos) e, portanto, em última análise, meu nó e ...