Resultados da pesquisa a pedido "pyspark-sql"

3 a resposta

Erro do PySpark: AttributeError: o objeto 'NoneType' não possui atributo '_jvm'

Eu tenho um conjunto de dados de carimbo de data / hora no formato de E eu escrevi um udf no pyspark para processar esse conjunto de dados e retornar como Mapa dos valores-chave. Mas estou recebendo a mensagem de erro abaixo. Conjunto de dados: ...

4 a resposta

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...

4 a resposta

E-num / get Dummies no pyspark

Eu gostaria de criar uma função noPYSPARKque obtêm o Dataframe e a lista de parâmetros (códigos / recursos categóricos) e retornam o quadro de dados com colunas fictícias adicionais, como as categorias dos recursos na lista PFA do DF Antes e ...

1 a resposta

O cache ordenado do Spark DataFrame cria trabalho indesejado

Desejo converter um RDD em um DataFrame e quero armazenar em cache os resultados do RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructField('t', ...

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 a resposta

Spark Streaming Estruturado usando soquetes, defina SCHEMA, Exibir DATAFRAME no console

Como posso definir um esquema para um streamingDataFrame no PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark ...

1 a resposta

Considerações de segurança do Spark SQL

Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

3 a resposta

Mediana / quantis dentro do grupo PySpark

Gostaria de calcular quantis de grupo em um dataframe Spark (usando PySpark). Um resultado aproximado ou exato seria bom. Eu prefiro uma solução que eu possa usar dentro do contexto degroupBy / agg, para que eu possa misturá-lo com outras funções ...

1 a resposta

Como usar o matplotlib para plotar resultados do pyspark sql

Eu sou novo no pyspark. Quero plotar o resultado usando matplotlib, mas não tenho certeza de qual função usar. Procurei uma maneira de converter o resultado do sql em pandas e depois usar o plot.