Resultados da pesquisa a pedido "pyspark"

0 a resposta

Como comparar os cabeçalhos do df com outros cabeçalhos df usando o Fuzzy Matching no pyspark?

Criei 3 quadros de dados executando o seguinte código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| Comparei os cabeçalhos dos ...

2 a resposta

get primeiros N elementos da coluna ArrayType do dataframe no pyspark

Tenho um spark dataframe com linhas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]gora, quero manter apenas os 2 primeiros elementos da coluna da matri 1 | [a, b] 2 | [d, e] 3 | [g, h]Como isso pode ser alcançado? ota - Lembre-se de que não ...

1 a resposta

PySpark - Como transpor um Dataframe [duplicado]

Esta pergunta, já tem uma resposta aqui: Como dinamizar o DataFrame? [/questions/30244910/how-to-pivot-dataframe] respostas Quero transpor um quadro de dados. Este é apenas um pequeno trecho do meu dataframe original - from ...

6 a resposta

erro @pyspark não existe no erro jvm ao inicializar o SparkContext

Estou usando o spark over emr e escrevendo um script pyspark, estou recebendo um erro ao tentar from pyspark import SparkContext sc = SparkContext()Este é o erro File "pyex.py", line 5, in <module> sc = SparkContext() ...

1 a resposta

Conteúdo da coluna da matriz do filtro

Estou usando o pyspark 2.3.1 e gostaria de filtrar elementos do array com uma expressão e não usando udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

2 a resposta

trabalhador @ Python falhou ao conectar novamente

Sou iniciante no Spark e estou tentando concluir um tutorial do Spark: link para o tutorial [https://www.youtube.com/watch?v=3CPI2D_QD44&index=4&list=PLot-YkcC7wZ_2sxmRTZr2c121rjcaleqv] epois de instalá-lo na máquina local (Win10 64, Python 3, ...

1 a resposta

Existe uma maneira de enviar trabalho de faísca em diferentes servidores executando o mestre

Temos um requisito para agendar trabalhos de faísca, já que estamos familiarizados com o apache-airflow, queremos prosseguir com ele para criar diferentes fluxos de trabalho. Pesquisei na web, mas não encontrei um guia passo a passo para agendar ...

1 a resposta

Produto cartesiano detectado para junção INNER na coluna literal no PySpark

O código a seguir gera a exceção "Produto cartesiano detectado para junção INNER": first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spark.createDataFrame([{"some_value": "????"}, ]) ...

2 a resposta

PySpark: como criar um JSON aninhado a partir do quadro de dados do spar

Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...

2 a resposta

Eficiente pyspark join

Eu li muito sobre como fazer junções eficientes no pyspark. As maneiras de obter junções eficientes que encontrei são basicamente: Use uma junção de transmissão, se puder. Normalmente não posso porque os quadros de dados são muito grandes) ...