Resultados da pesquisa a pedido "pyspark-sql"

4 a resposta

Como criar bons exemplos reproduzíveis do Apache Spark

Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...

1 a resposta

Erro ao usar a tabela INSERT INTO ON KEY DUPLICATE, usando uma matriz de loop for

Estou trabalhando na atualização de um banco de dados mysql usando a estrutura pyspark e executando nos serviços do AWS Glue. Eu tenho um quadro de dados da seguinte maneira: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...

5 a resposta

Dataframe do PySpark do dicionário Python sem pandas

Estou tentando converter o seguinte Pythondict no PySpark DataFrame, mas não estou obtendo a saída esperada. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as expected ...

1 a resposta

PySpark: calcule a média de uma coluna após usar a função de filtro

Estou usando o código a seguir para obter a idade média de pessoas cujo salário é superior a algum limite. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})a idade da coluna é numérica (flutuante), mas ainda estou recebendo esse ...

10 a resposta

Como alterar os nomes das colunas do quadro de dados no pyspark?

Eu venho do fundo do pandas e estou acostumado a ler dados de arquivos CSV em um dataframe e depois simplesmente alterar os nomes das colunas para algo útil usando o comando simples: df.columns = new_column_name_listNo entanto, o mesmo não ...

4 a resposta

Como criar um DataFrame fora das linhas, mantendo o esquema existente?

Se eu ligar para o mapa oumapPartition e minha função recebe linhas do PySpark, qual é a maneira natural de criar um PySpark local ou o Pandas DataFrame? Algo que combina as linhas e mantém o esquema? Atualmente eu faço algo como: def ...

3 a resposta

Pyspark DataFrame UDF na coluna de texto

Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...

2 a resposta

Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script

É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df

3 a resposta

Trabalhando com o jdbc jar no pyspark

Eu preciso ler de um banco de dados sql postgres no pyspark. Eu sei que isso já foi perguntado antes, comoaqui [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...