Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Comportamento não persistente do conjunto de dados do Spark

Recentemente, vi um comportamento estranho do Spark. Eu tenho um pipeline no meu aplicativo no qual estou manipulando um grande conjunto de dados - pseudocódigo: val data = spark.read (...) data.join(df1, "key") //etc, more ...

3 a resposta

Erro ao explodir uma coluna struct no Spark

Eu tenho um quadro de dados cujo esquema se parece com isso: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

1 a resposta

Selecionando apenas nomes de colunas numéricas / de seqüência de caracteres de um Spark DF no pyspark

Eu tenho um SparkDataFrame no pyspark (2.1.0) e estou procurando obter apenas os nomes de colunas numéricas ou apenas colunas de seqüência de caracteres. Por exemplo, este é o esquema do meu DF: root |-- Gender: string (nullable = true) |-- ...

1 a resposta

NullPointerException após extrair uma tabela Teradata com Scala / Spark

Preciso extrair uma tabela do Teradata (acesso somente leitura) para parquet com o Scala (2.11) / Spark (2.1.0). Estou construindo um quadro de dados que posso carregar com sucesso val df = ...

2 a resposta

O Spark Strutured Streaming converte automaticamente o carimbo de data / hora para a hora local

Eu tenho meu carimbo de data e hora no UTC e ISO8601, mas usando o Streaming estruturado, ele é convertido automaticamente no horário local. Existe uma maneira de parar essa conversão? Eu gostaria de tê-lo no UTC. Estou lendo dados json do Kafka ...

2 a resposta

A agregação de pacotes Python3 ao PySpark resulta na falta de importações

Estou tentando executar um trabalho PySpark que depende de determinadas bibliotecas python3. Eu sei que posso instalar essas bibliotecas no Spark Cluster, mas como estou reutilizando o cluster para vários trabalhos, gostaria de agrupar todas as ...

1 a resposta

Sparklyr: como explodir uma coluna da lista em suas próprias colunas na tabela Spark?

Minha pergunta é semelhante à daaqui [https://stackoverflow.com/q/41810015/7913448], mas estou tendo problemas para implementar a resposta e não posso comentar nesse segmento. Portanto, eu tenho um grande arquivo CSV que contém dados aninhados, ...

2 a resposta

Por que iniciar uma consulta de streaming leva a "ExitCodeException exitCode = -1073741515"?

Estou tentando me acostumar com o novo streaming estruturado, mas ele continua me dando um erro abaixo assim que inicio um.writeStream inquerir. Alguma ideia do que poderia estar causando isso? O mais próximo que pude encontrar foi um bug do ...

3 a resposta

Spark Scala: Erro de tarefa não serializável

Estou usando o IntelliJ Community Edition com o Scala Plugin e as bibliotecas spark. Ainda estou aprendendo o Spark e usando a Planilha do Scala. Eu escrevi o código abaixo que remove os sinais de pontuação em uma String: def ...

2 a resposta

Filtro de várias condições no quadro de dados

Alguém pode me explicar por que estou obtendo resultados diferentes para essas duas expressões? Estou tentando filtrar entre 2 datas: df.filter("act_date <='2017-04-01'" and "act_date ...