Resultados da pesquisa a pedido "pyspark"
Mesclar lista de listas no pySpark RDD
Eu tenho listas de tuplas que quero combinar em uma lista. Consegui processar os dados usando lambdas e compreensão de lista para onde estou perto de poder usar o reduzidaByKey, mas não sei como mesclar as listas. Então o formato ... [[(0, 14), ...
Transmitir coluna contendo vários formatos de data de sequência para DateTime no Spark
Eu tenho uma coluna de data no meu SparkDataDrame que contém vários formatos de sequência. Gostaria de transmiti-los para DateTime. Os dois formatos na minha coluna são: mm/dd/yyyy; eyyyy-mm-ddMinha solução até agora é usar um UDF para alterar ...
Configurando o Spark para funcionar com o Jupyter Notebook e o Anaconda
Passei alguns dias agora tentando fazer o Spark funcionar com o meu Jupyter Notebook e o Anaconda. Aqui está a aparência do meu .bash_profile: PATH="/my/path/to/anaconda3/bin:$PATH" export JAVA_HOME="/my/path/to/jdk" ...
Como salvar um arquivo no cluster
Estou conectado ao cluster usandossh e eu envio o programa para o cluster usando spark-submit --master yarn myProgram.pyQuero salvar o resultado em um arquivo de texto e tentei usar as seguintes ...
Como corrigir faísca horrivelmente mal interpretando csv?
Eu tenho dois arquivos csv, um contendo palavras-chave para filmes, o outro contendo elenco e equipe. okeywords.csv o arquivo fica assim: $ head -n 3 keywords.csv id,keywords 862,"[{'id': 931, 'name': 'jealousy'}, {'id': 4290, 'name': 'toy'}, ...
Código pyspark de teste de unidade usando python
Eu tenho script empyspark como abaixo. Eu quero testar uma unidadefunction neste script. def rename_chars(column_name): chars = ((' ', '_&'), ('.', '_$')) new_cols = reduce(lambda a, kv: a.replace(*kv), chars, column_name) return new_cols ...
Aplicar função por grupo no pyspark -pandas_udf (nenhum módulo chamado pyarrow)
Estou tentando aplicar uma função a cada grupo de um conjunto de dados no pyspark. O primeiro erro que eu estava recebendo foi Py4JError: An error occurred while calling o62.__getnewargs__. Trace: py4j.Py4JException: Method __getnewargs__([]) ...
A função .count () do Spark é diferente do conteúdo do quadro de dados ao filtrar no campo de registro corrompido
Eu tenho um trabalho do Spark, escrito em Python, que está obtendo um comportamento estranho ao verificar se há erros nos dados. Uma versão simplificada está abaixo: from pyspark.sql import SparkSession from pyspark.sql.types import ...
Como posso obter um índice invertido?
Estou usando o Spark. Como posso obter o índice invertido para o arquivo csv usando o Spark? Eu tenho arquivo csv df.show() +--------+--------------------+--------------------+----------+ | id| title| ...
Pyspark, como dividir quando há vários delimitadores em uma coluna [duplicado]
Esta pergunta já tem uma resposta aqui: Carregar arquivo CSV com Spark [/questions/28782940/load-csv-file-with-spark] 11 respostasrdd1=sc.textFile('/user/training/checkouts').map(lambda line:line.split(',')).map(lambda ...