Resultados da pesquisa a pedido "apache-spark"

1 a resposta

A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido

Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...

1 a resposta

Aplicar função por grupo no pyspark -pandas_udf (nenhum módulo chamado pyarrow)

Estou tentando aplicar uma função a cada grupo de um conjunto de dados no pyspark. O primeiro erro que eu estava recebendo foi Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) ...

1 a resposta

Convertendo matriz de seqüências de caracteres no Spark para matriz de bytes e recuperando-a novamente usando UDFs

Estou tentando converter matriz de seqüências de caracteres em matriz de bytes no Spark e reconvertendo a matriz de bytes em matriz de seqüências de caracteres. No entanto, não estou recebendo a matriz String de volta como pretendo. Aqui está o ...

1 a resposta

Erro de teste do SBT: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

Exceção Getting Below, quando tentei realizar testes de unidade para o meu código de fluxo spark no Windows SBT usando o scalatest. sbt testOnly<<ClassName>> * * * * * * 2018-06-18 02:39:00 ERRO Executor: 91 - Exceção na tarefa 1.0 no estágio ...

1 a resposta

Por que o pushdown de predicado não é usado na API do conjunto de dados digitada (versus API do DataFrame não digitada)?

Eu sempre pensei que as APIs do conjunto de dados / dataframe são as mesmas ... e a única diferença é que a API do conjunto de dados fornecerá segurança no tempo de compilação. Direito ? Então .. eu tenho um caso muito simples: case class ...

1 a resposta

Armazenando em cache quadros de dados enquanto mantém partições

Estou no Spark 2.2.0, executando no EMR. Eu tenho um grande quadro de dadosdf (40G ou mais em arquivos compactados), que é particionado por chavesk1 ek2. Quando eu consulto pork1 ===v1 ou (k1 ===v1 &&k2 ===v2`), posso ver que está apenas ...

1 a resposta

Como adicionar uma coluna aninhada a um DataFrame

Eu tenho um quadro de dadosdf com o seguinte esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)O que eu quero fazer é adicionar uma ...

1 a resposta

Manipulação de linha para Dataframe no spark [duplicado]

Esta pergunta já tem uma resposta aqui: Como mapear um Dataframe aninhado no Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respostaEu tenho um dataframe no spark que é como: column_A | column_B --------- -------- 1 ...

1 a resposta

Como posso obter um índice invertido?

Estou usando o Spark. Como posso obter o índice invertido para o arquivo csv usando o Spark? Eu tenho arquivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

1 a resposta

Pyspark, como dividir quando há vários delimitadores em uma coluna [duplicado]

Esta pergunta já tem uma resposta aqui: Carregar arquivo CSV com Spark [/questions/28782940/load-csv-file-with-spark] 11 respostasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...