Resultados da pesquisa a pedido "pyspark-sql"

2 a resposta

PySpark: como criar um JSON aninhado a partir do quadro de dados do spar

Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...

3 a resposta

Lista ao DataFrame no pyspark

Alguém pode me dizer como converter uma lista contendo seqüências de caracteres em um Dataframe no pyspark. Estou usando o python 3.6 com spark 2.2.1. Acabei de começar a aprender o ambiente spark e meus dados se parecem ...

1 a resposta

PySpark: calcula o máximo de linhas do subconjunto de colunas e adiciona a um quadro de dados existente

Gostaria de calcular o máximo de um subconjunto de colunas para cada linha e adicioná-lo como uma nova coluna para o existenteDataframe. Eu consegui fazer isso de uma maneira muito estranha: def add_colmax(df,subset_columns,colnm): ''' ...

1 a resposta

Spark Streaming Estruturado usando soquetes, defina SCHEMA, Exibir DATAFRAME no console

Como posso definir um esquema para um streamingDataFrame no PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark ...

3 a resposta

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...

4 a resposta

E-num / get Dummies no pyspark

Eu gostaria de criar uma função noPYSPARKque obtêm o Dataframe e a lista de parâmetros (códigos / recursos categóricos) e retornam o quadro de dados com colunas fictícias adicionais, como as categorias dos recursos na lista PFA do DF Antes e ...

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...

1 a resposta

Erro no Pipeline do Spark

Estou tentando executar um modelo de regressão logística multinomial from pyspark.sql import SparkSession spark = SparkSession.builder.appName('prepare_data').getOrCreate() from pyspark.sql.types import * spark.sql("DROP TABLE IF EXISTS ...

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 a resposta

Como implementar o incremento automático no spark SQL (PySpark)

Eu preciso implementar uma coluna de incremento automático na minha tabela sql spark, como eu poderia fazer isso. Por favor, me guie. eu estou usando o pyspark 2.0 Obrigado Kalyan