Resultados da pesquisa a pedido "pyspark-sql"

1 a resposta

Apache spark lidando com instruções de caso

Estou lidando com a transformação de código SQL em código PySpark e me deparei com algumas instruções SQL. Não sei como abordar declarações de casos no pyspark? Estou planejando criar um RDD e, em seguida, usar o rdd.map e, em seguida, fazer ...

2 a resposta

Como armazenar em cache um quadro de dados Spark e referenciá-lo em outro script

É possível armazenar em cache um quadro de dados e referenciá-lo (consulta) em outro script? ... Meu objetivo é o seguinte: No script 1, crie um quadro de dados (df)Execute o script 1 e o cache dfNo script 2, consultar dados em df

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

4 a resposta

Converter string pyspark em formato de data

Eu tenho um dataframe pyspark de data com uma coluna de string no formato deMM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() e recebo uma sequência de ...

4 a resposta

Como selecionar a última linha e também como acessar o quadro de dados PySpark por índice?

De um dataframe PySpark SQL como name age city abc 20 A def 30 BComo obter a última linha. (Como por df.limit (1) Eu posso obter a primeira linha do dataframe no novo dataframe). E como posso acessar as linhas do quadro de dados por index.like ...

2 a resposta

Como dinamizar em várias colunas no Spark SQL?

Eu preciso dinamizar mais de uma coluna em um dataframe pyspark. Dataframe de amostra, >>> d ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

1 a resposta

Como criar um json aninhado no Pyspark?

Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...

2 a resposta

Coluna Spark Dataframe com o último caractere de outra coluna

Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...

4 a resposta

Como criar bons exemplos reproduzíveis do Apache Spark

Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...