Resultados da pesquisa a pedido "pyspark"

2 a resposta

Mesclar lista de listas no pySpark RDD

Eu tenho listas de tuplas que quero combinar em uma lista. Consegui processar os dados usando lambdas e compreensão de lista para onde estou perto de poder usar o reduzidaByKey, mas não sei como mesclar as listas. Então o formato ... [[(0, 14), ...

1 a resposta

Transmitir coluna contendo vários formatos de data de sequência para DateTime no Spark

Eu tenho uma coluna de data no meu SparkDataDrame que contém vários formatos de sequência. Gostaria de transmiti-los para DateTime. Os dois formatos na minha coluna são: mm/dd/yyyy; eyyyy-mm-ddMinha solução até agora é usar um UDF para alterar ...

3 a resposta

Configurando o Spark para funcionar com o Jupyter Notebook e o Anaconda

Passei alguns dias agora tentando fazer o Spark funcionar com o meu Jupyter Notebook e o Anaconda. Aqui está a aparência do meu .bash_profile: PATH="/my/path/to/anaconda3/bin:$PATH" export JAVA_HOME="/my/path/to/jdk" ...

4 a resposta

Como salvar um arquivo no cluster

Estou conectado ao cluster usandossh e eu envio o programa para o cluster usando spark-submit --master yarn myProgram.pyQuero salvar o resultado em um arquivo de texto e tentei usar as seguintes ...

1 a resposta

Como corrigir faísca horrivelmente mal interpretando csv?

Eu tenho dois arquivos csv, um contendo palavras-chave para filmes, o outro contendo elenco e equipe. okeywords.csv o arquivo fica assim: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, ...

3 a resposta

Código pyspark de teste de unidade usando python

Eu tenho script empyspark como abaixo. Eu quero testar uma unidadefunction neste script. def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols ...

1 a resposta

Aplicar função por grupo no pyspark -pandas_udf (nenhum módulo chamado pyarrow)

Estou tentando aplicar uma função a cada grupo de um conjunto de dados no pyspark. O primeiro erro que eu estava recebendo foi Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) ...

1 a resposta

A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido

Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...

1 a resposta

Como posso obter um índice invertido?

Estou usando o Spark. Como posso obter o índice invertido para o arquivo csv usando o Spark? Eu tenho arquivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...

1 a resposta

Pyspark, como dividir quando há vários delimitadores em uma coluna [duplicado]

Esta pergunta já tem uma resposta aqui: Carregar arquivo CSV com Spark [/questions/28782940/load-csv-file-with-spark] 11 respostasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...