Resultados da pesquisa a pedido "apache-spark"
Comportamento não persistente do conjunto de dados do Spark
Recentemente, vi um comportamento estranho do Spark. Eu tenho um pipeline no meu aplicativo no qual estou manipulando um grande conjunto de dados - pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...
Erro ao explodir uma coluna struct no Spark
Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...
Selecionando apenas nomes de colunas numéricas / de seqüência de caracteres de um Spark DF no pyspark
Eu tenho um SparkDataFrame no pyspark (2.1.0) e estou procurando obter apenas os nomes de colunas numéricas ou apenas colunas de seqüência de caracteres. Por exemplo, este é o esquema do meu DF: root |-- Gender: string (nullable = true) |-- ...
NullPointerException após extrair uma tabela Teradata com Scala / Spark
Preciso extrair uma tabela do Teradata (acesso somente leitura) para parquet com o Scala (2.11) / Spark (2.1.0). Estou construindo um quadro de dados que posso carregar com sucesso val df = ...
O Spark Strutured Streaming converte automaticamente o carimbo de data / hora para a hora local
Eu tenho meu carimbo de data e hora no UTC e ISO8601, mas usando o Streaming estruturado, ele é convertido automaticamente no horário local. Existe uma maneira de parar essa conversão? Eu gostaria de tê-lo no UTC. Estou lendo dados json do Kafka ...
A agregação de pacotes Python3 ao PySpark resulta na falta de importações
Estou tentando executar um trabalho PySpark que depende de determinadas bibliotecas python3. Eu sei que posso instalar essas bibliotecas no Spark Cluster, mas como estou reutilizando o cluster para vários trabalhos, gostaria de agrupar todas as ...
Sparklyr: como explodir uma coluna da lista em suas próprias colunas na tabela Spark?
Minha pergunta é semelhante à daaqui [https://stackoverflow.com/q/41810015/7913448], mas estou tendo problemas para implementar a resposta e não posso comentar nesse segmento. Portanto, eu tenho um grande arquivo CSV que contém dados aninhados, ...
Por que iniciar uma consulta de streaming leva a "ExitCodeException exitCode = -1073741515"?
Estou tentando me acostumar com o novo streaming estruturado, mas ele continua me dando um erro abaixo assim que inicio um.writeStream inquerir. Alguma ideia do que poderia estar causando isso? O mais próximo que pude encontrar foi um bug do ...
Spark Scala: Erro de tarefa não serializável
Estou usando o IntelliJ Community Edition com o Scala Plugin e as bibliotecas spark. Ainda estou aprendendo o Spark e usando a Planilha do Scala. Eu escrevi o código abaixo que remove os sinais de pontuação em uma String: def ...
Filtro de várias condições no quadro de dados
Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...