Resultados da pesquisa a pedido "apache-spark"

Eu sou muito novo no scala and spark e tenho tentado encontrar uma solução para esse problema o dia todo - isso está me afetando. Tentei 20 variações diferentes do código a seguir e continuo recebendotype mismatch erros quando tento ...

string-matching pyspark fuzzy-search python

1 a resposta

Correspondência eficiente de strings no Apache Spark

Usando uma ferramenta de OCR, extraí textos de capturas de tela (cerca de 1 a 5 frases cada). No entanto, ao verificar manualmente o texto extraído, notei vários erros que ocorrem periodicamente. Dado o texto "Olá! Gosto muito do Spark ❤!", ...

apache-spark-sql scala

1 a resposta

Como usar Column.isin com coluna de matriz na junção?

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...

pyspark spark-dataframe scala apache-spark-sql

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

apache-spark-sql

1 a resposta

Como melhorar a velocidade de junção de transmissão com condição entre no Spark

Eu tenho dois quadros de dados A e B. A é grande (100 G) e B é relativamente pequeno (100 M). O número de partição de A é 8 e o número de partição de B é 1. A.join(broadcast(B), $"cur" >= $"low" && $"cur" <= $"high", "left_outer")A velocidade é ...

pyspark apache-spark-sql pyspark-sql

2 a resposta

Coluna Spark Dataframe com o último caractere de outra coluna

Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...

pyspark pyspark-sql apache-spark-sql spark-dataframe

2 a resposta

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...

r rename sparklyr

1 a resposta

Sparklyr - Alterar nomes de colunas em um dataframe Spark

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)retorna: > head(df_tbl) Error: `new1`, `new2` contains unknown variablesExiste uma maneira fácil de alterar os ...

scala apache-spark-sql

3 a resposta

Diferença entre duas linhas no dataframe Spark

Criei um quadro de dados no Spark, por grupo por coluna1 e data e calculei o valor. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...

spark-streaming apache-kafka

1 a resposta

API e Paralelismo de Streaming Direto Kafka do Spark-Streaming

Entendi o mapeamento automatizado que existe entre uma Partição Kafka e uma partição Spark RDD e, finalmente, a Tarefa Spark. No entanto, para dimensionar corretamente meu executor (em número de núcleos) e, portanto, em última análise, meu nó e ...

Página 56 do 167

54 555657 58

Resultados da pesquisa a pedido "apache-spark"

Quadros de dados Spark (scala) - Verifique se as strings na coluna contêm itens de um conjunto

Correspondência eficiente de strings no Apache Spark

Como usar Column.isin com coluna de matriz na junção?

Tags populares

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Como melhorar a velocidade de junção de transmissão com condição entre no Spark

Coluna Spark Dataframe com o último caractere de outra coluna

PySpark - obtém o número da linha para cada linha em um grupo

Sparklyr - Alterar nomes de colunas em um dataframe Spark

Diferença entre duas linhas no dataframe Spark

API e Paralelismo de Streaming Direto Kafka do Spark-Streaming

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares