Resultados da pesquisa a pedido "apache-spark"
A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido
Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...
Aplicar função por grupo no pyspark -pandas_udf (nenhum módulo chamado pyarrow)
Estou tentando aplicar uma função a cada grupo de um conjunto de dados no pyspark. O primeiro erro que eu estava recebendo foi Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) ...
Convertendo matriz de seqüências de caracteres no Spark para matriz de bytes e recuperando-a novamente usando UDFs
Estou tentando converter matriz de seqüências de caracteres em matriz de bytes no Spark e reconvertendo a matriz de bytes em matriz de seqüências de caracteres. No entanto, não estou recebendo a matriz String de volta como pretendo. Aqui está o ...
Erro de teste do SBT: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
Exceção Getting Below, quando tentei realizar testes de unidade para o meu código de fluxo spark no Windows SBT usando o scalatest. sbt testOnly<<ClassName>> * * * * * * 2018-06-18 02:39:00 ERRO Executor: 91 - Exceção na tarefa 1.0 no estágio ...
Por que o pushdown de predicado não é usado na API do conjunto de dados digitada (versus API do DataFrame não digitada)?
Eu sempre pensei que as APIs do conjunto de dados / dataframe são as mesmas ... e a única diferença é que a API do conjunto de dados fornecerá segurança no tempo de compilação. Direito ? Então .. eu tenho um caso muito simples: case class ...
Armazenando em cache quadros de dados enquanto mantém partições
Estou no Spark 2.2.0, executando no EMR. Eu tenho um grande quadro de dadosdf (40G ou mais em arquivos compactados), que é particionado por chavesk1 ek2. Quando eu consulto pork1 ===v1 ou (k1 ===v1 &&k2 ===v2`), posso ver que está apenas ...
Como adicionar uma coluna aninhada a um DataFrame
Eu tenho um quadro de dadosdf com o seguinte esquema: root |-- city_name: string (nullable = true) |-- person: struct (nullable = true) | |-- age: long (nullable = true) | |-- name: string (nullable = true)O que eu quero fazer é adicionar uma ...
Manipulação de linha para Dataframe no spark [duplicado]
Esta pergunta já tem uma resposta aqui: Como mapear um Dataframe aninhado no Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respostaEu tenho um dataframe no spark que é como: column_A | column_B --------- -------- 1 ...
Como posso obter um índice invertido?
Estou usando o Spark. Como posso obter o índice invertido para o arquivo csv usando o Spark? Eu tenho arquivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...
Pyspark, como dividir quando há vários delimitadores em uma coluna [duplicado]
Esta pergunta já tem uma resposta aqui: Carregar arquivo CSV com Spark [/questions/28782940/load-csv-file-with-spark] 11 respostasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...