Resultados da pesquisa a pedido "pyspark"

3 a resposta

Erro ao explodir uma coluna struct no Spark

Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

2 a resposta

A agregação de pacotes Python3 ao PySpark resulta na falta de importações

Estou tentando executar um trabalho PySpark que depende de determinadas bibliotecas python3. Eu sei que posso instalar essas bibliotecas no Spark Cluster, mas como estou reutilizando o cluster para vários trabalhos, gostaria de agrupar todas as ...

3 a resposta

Como adiciono uma coluna a uma estrutura aninhada em um dataframe pyspark?

Eu tenho um quadro de dados com um esquema como root |-- state: struct (nullable = true) | |-- fld: integer (nullable = true)e eu gostaria de adicionar colunas dentro dostate struct, que é criar um quadro de dados com um esquema como root |-- ...

3 a resposta

Spark Scala: Erro de tarefa não serializável

Estou usando o IntelliJ Community Edition com o Scala Plugin e as bibliotecas spark. Ainda estou aprendendo o Spark e usando a Planilha do Scala. Eu escrevi o código abaixo que remove os sinais de pontuação em uma String: def ...

2 a resposta

Filtro de várias condições no quadro de dados

Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...

3 a resposta

PySpark, principal para DataFrame

O que eu quero fazer é um DataFrame, pegue os n elementos principais de acordo com alguma coluna especificada. O topo (self, num) na API RDD é exatamente o que eu quero. Gostaria de saber se existe API equivalente no mundo DataFrame? Minha ...

2 a resposta

Adicionando uma coluna de contagem de grupos a um quadro de dados PySpark

Eu estou vindo de R e oarrumado [https://www.tidyverse.org/]ao PySpark devido ao seu manuseio superior do Spark, e estou lutando para mapear certos conceitos de um contexto para outro. Em particular, suponha que eu tivesse um conjunto de dados ...

1 a resposta

O que o argumento 'startTime' da função pyspark.sql.functions.window faz e window.start?

O exemplo é o seguinte: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...

1 a resposta

Como você pode analisar uma string json de uma tabela temporária existente usando o PySpark?

Eu tenho um quadro de dados Spark existente que possui colunas como tais: -------------------- pid | response -------------------- 12 | {"status":"200"} resposta é uma coluna de sequência. Existe uma maneira de convertê-lo em JSON e extrair ...

1 a resposta

collect () ou toPandas () em um DataFrame grande no pyspark / EMR

Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...