Resultados da pesquisa a pedido "pyspark"

2 a resposta

trabalhador @ Python falhou ao conectar novamente

Sou iniciante no Spark e estou tentando concluir um tutorial do Spark: link para o tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] epois de instalá-lo na máquina local (Win10 64, Python 3, ...

1 a resposta

Conteúdo da coluna da matriz do filtro

Estou usando o pyspark 2.3.1 e gostaria de filtrar elementos do array com uma expressão e não usando udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

1 a resposta

PySpark - Como transpor um Dataframe [duplicado]

Esta pergunta, já tem uma resposta aqui: Como dinamizar o DataFrame? [/questions/30244910/how-to-pivot-dataframe] respostas Quero transpor um quadro de dados. Este é apenas um pequeno trecho do meu dataframe original - from ...

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

2 a resposta

get primeiros N elementos da coluna ArrayType do dataframe no pyspark

Tenho um spark dataframe com linhas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]gora, quero manter apenas os 2 primeiros elementos da coluna da matri 1 | [a, b] 2 | [d, e] 3 | [g, h]Como isso pode ser alcançado? ota - Lembre-se de que não ...

0 a resposta

Como comparar os cabeçalhos do df com outros cabeçalhos df usando o Fuzzy Matching no pyspark?

Criei 3 quadros de dados executando o seguinte código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| Comparei os cabeçalhos dos ...

1 a resposta

riando uma matriz de indicadores com base nos valores de coluna de outros quadros de dados no PySpa

Tenho dois quadros de dados:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+anddf2: +---+-----------------+ ...

1 a resposta

Entenda o fechamento em faísca

Nos modos de cluster, como escrever uma função de fechamentof para permitir que todo trabalhador acesse a cópia da variávelN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...

1 a resposta

toPandas () erro usando pyspark: objeto 'int' não é iterável

Eu tenho um dataframe pyspark e estou tentando convertê-lo em pandas usando toPandas (), no entanto, estou executando o erro abaixo mencionado. Tentei opções diferentes, mas obtive o mesmo erro: 1) limitar os dados a apenas alguns registros 2) ...

1 a resposta

StandardScaler no Spark não está funcionando conforme o esperado

Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...