Resultados da pesquisa a pedido "pyspark"

2 a resposta

pyspark EOFError depois de chamar o mapa

Eu sou novo no spark & pyspark. Estou lendo um pequeno arquivo csv (~ 40k) em um dataframe. from pyspark.sql import functions as F df ...

3 a resposta

Como atribuir e usar cabeçalhos de coluna no Spark?

Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...

2 a resposta

Composição da função de linha do PySpark

Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

1 a resposta

pyspark mysql jdbc load Ocorreu um erro ao chamar o23.load Nenhum driver adequado

Eu uso a imagem do dockersequenceiq / spark [https://hub.docker.com/r/sequenceiq/spark/]no meu Mac para estudar estes exemplos de faísca [http://spark.apache.org/examples.html], durante o processo de estudo, atualizo a centelha dentro dessa ...

2 a resposta

spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]

Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...

2 a resposta

pyspark: o objeto 'PipelinedRDD' não é iterável

Estou recebendo esse erro, mas não sei por que. Basicamente, estou com erro neste código: a = data.mapPartitions(helper(locations))onde dados são um RDD e meu ajudante é definido como: def helper(iterator, locations): for x in iterator: c = ...

1 a resposta

Soma operação no PySpark DataFrame dando TypeError quando o tipo é bom

Eu tenho esse DataFrame no PySpark (este é o resultado de uma captura (3), o dataframe é muito grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]o mesmoproprietário terá mais ...

1 a resposta

Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)

Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...

2 a resposta

O que o Exception: Randomness do hash da string deve ser desativado via PYTHONHASHSEED no pyspark?

Estou tentando criar um dicionário a partir de uma lista no pyspark. Eu tenho a seguinte lista de listas: rawPositionsDá [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...

1 a resposta

PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe

EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...