Resultados da pesquisa a pedido "pyspark"
pyspark EOFError depois de chamar o mapa
Eu sou novo no spark & pyspark. Estou lendo um pequeno arquivo csv (~ 40k) em um dataframe. from pyspark.sql import functions as F df ...
Como atribuir e usar cabeçalhos de coluna no Spark?
Estou lendo um conjunto de dados como abaixo. f = sc.textFile("s3://test/abc.csv")Meu arquivo contém mais de 50 campos e desejo atribuir cabeçalhos de coluna para cada um dos campos para referência posteriormente no meu script. Como faço isso ...
Composição da função de linha do PySpark
Como um exemplo simplificado, tenho um quadro de dados "df" com as colunas "col1, col2" e quero calcular o máximo em linhas após aplicar uma função a cada coluna: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...
pyspark mysql jdbc load Ocorreu um erro ao chamar o23.load Nenhum driver adequado
Eu uso a imagem do dockersequenceiq / spark [https://hub.docker.com/r/sequenceiq/spark/]no meu Mac para estudar estes exemplos de faísca [http://spark.apache.org/examples.html], durante o processo de estudo, atualizo a centelha dentro dessa ...
spark: Como fazer um dropDuplicates em um dataframe, mantendo a linha com o timestamp mais alto [duplicado]
Esta pergunta já tem uma resposta aqui: Encontre a linha máxima por grupo no Spark DataFrame [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 respostas Eu tenho um caso de uso em que eu precisaria soltar linhas duplicadas de ...
pyspark: o objeto 'PipelinedRDD' não é iterável
Estou recebendo esse erro, mas não sei por que. Basicamente, estou com erro neste código: a = data.mapPartitions(helper(locations))onde dados são um RDD e meu ajudante é definido como: def helper(iterator, locations): for x in iterator: c = ...
Soma operação no PySpark DataFrame dando TypeError quando o tipo é bom
Eu tenho esse DataFrame no PySpark (este é o resultado de uma captura (3), o dataframe é muito grande): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]o mesmoproprietário terá mais ...
Como executar uma instrução Switch com os quadros de dados Apache Spark (Python)
Estou tentando executar uma operação nos meus dados em que um determinado valor será mapeado para uma lista de valores predeterminados, se corresponder a um dos critérios, ou para um valor de retorno caso contrário. Este seria o SQL ...
O que o Exception: Randomness do hash da string deve ser desativado via PYTHONHASHSEED no pyspark?
Estou tentando criar um dicionário a partir de uma lista no pyspark. Eu tenho a seguinte lista de listas: rawPositionsDá [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', ...
PySpark convertendo uma coluna do tipo 'map' em várias colunas em um dataframe
EntradaEu tenho uma colunaParameters do tipomap do formulário: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...