Resultados da pesquisa a pedido "apache-spark"
Quadros de dados Spark (scala) - Verifique se as strings na coluna contêm itens de um conjunto
Eu sou muito novo no scala and spark e tenho tentado encontrar uma solução para esse problema o dia todo - isso está me afetando. Tentei 20 variações diferentes do código a seguir e continuo recebendotype mismatch erros quando tento ...
Correspondência eficiente de strings no Apache Spark
Usando uma ferramenta de OCR, extraí textos de capturas de tela (cerca de 1 a 5 frases cada). No entanto, ao verificar manualmente o texto extraído, notei vários erros que ocorrem periodicamente. Dado o texto "Olá! Gosto muito do Spark ❤!", ...
Como usar Column.isin com coluna de matriz na junção?
case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...
Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída
Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...
Como melhorar a velocidade de junção de transmissão com condição entre no Spark
Eu tenho dois quadros de dados A e B. A é grande (100 G) e B é relativamente pequeno (100 M). O número de partição de A é 8 e o número de partição de B é 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")A velocidade é ...
Coluna Spark Dataframe com o último caractere de outra coluna
Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...
PySpark - obtém o número da linha para cada linha em um grupo
Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...
Sparklyr - Alterar nomes de colunas em um dataframe Spark
df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)retorna: > head(df_tbl) Error: `new1`, `new2` contains unknown variablesExiste uma maneira fácil de alterar os ...
Diferença entre duas linhas no dataframe Spark
Criei um quadro de dados no Spark, por grupo por coluna1 e data e calculei o valor. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...
API e Paralelismo de Streaming Direto Kafka do Spark-Streaming
Entendi o mapeamento automatizado que existe entre uma Partição Kafka e uma partição Spark RDD e, finalmente, a Tarefa Spark. No entanto, para dimensionar corretamente meu executor (em número de núcleos) e, portanto, em última análise, meu nó e ...