Resultados da pesquisa a pedido "pyspark"
Erro ao explodir uma coluna struct no Spark
Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...
A agregação de pacotes Python3 ao PySpark resulta na falta de importações
Estou tentando executar um trabalho PySpark que depende de determinadas bibliotecas python3. Eu sei que posso instalar essas bibliotecas no Spark Cluster, mas como estou reutilizando o cluster para vários trabalhos, gostaria de agrupar todas as ...
Como adiciono uma coluna a uma estrutura aninhada em um dataframe pyspark?
Eu tenho um quadro de dados com um esquema como root |-- state: struct (nullable = true) | |-- fld: integer (nullable = true)e eu gostaria de adicionar colunas dentro dostate struct, que é criar um quadro de dados com um esquema como root |-- ...
Spark Scala: Erro de tarefa não serializável
Estou usando o IntelliJ Community Edition com o Scala Plugin e as bibliotecas spark. Ainda estou aprendendo o Spark e usando a Planilha do Scala. Eu escrevi o código abaixo que remove os sinais de pontuação em uma String: def ...
Filtro de várias condições no quadro de dados
Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...
PySpark, principal para DataFrame
O que eu quero fazer é um DataFrame, pegue os n elementos principais de acordo com alguma coluna especificada. O topo (self, num) na API RDD é exatamente o que eu quero. Gostaria de saber se existe API equivalente no mundo DataFrame? Minha ...
Adicionando uma coluna de contagem de grupos a um quadro de dados PySpark
Eu estou vindo de R e oarrumado [https://www.tidyverse.org/]ao PySpark devido ao seu manuseio superior do Spark, e estou lutando para mapear certos conceitos de um contexto para outro. Em particular, suponha que eu tivesse um conjunto de dados ...
O que o argumento 'startTime' da função pyspark.sql.functions.window faz e window.start?
O exemplo é o seguinte: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...
Como você pode analisar uma string json de uma tabela temporária existente usando o PySpark?
Eu tenho um quadro de dados Spark existente que possui colunas como tais: -------------------- pid | response -------------------- 12 | {"status":"200"} resposta é uma coluna de sequência. Existe uma maneira de convertê-lo em JSON e extrair ...
collect () ou toPandas () em um DataFrame grande no pyspark / EMR
Eu tenho um cluster EMR de uma máquina "c3.8xlarge", depois de ler vários recursos, entendi que tenho que permitir uma quantidade decente de memória fora do heap porque estou usando o pyspark; portanto, configurei o cluster da seguinte ...