Resultados da pesquisa a pedido "parquet"

3 a resposta

Como visualizar o arquivo Apache Parquet no Windows?

Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...

1 a resposta

Por que o Impala não consegue ler arquivos em parquet após a gravação do Spark SQL?

Tendo alguns problemas com a maneira como o Spark está interpretando colunas para parquet. Eu tenho uma fonte Oracle com esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

1 a resposta

Por que os arquivos Spark Parquet para um agregado são maiores que o original?

Estou tentando criar um arquivo agregado para os usuários finais utilizarem para evitar que eles processem várias fontes com arquivos muito maiores. Para fazer isso, I: A) repete todas as pastas de origem, removendo os 12 campos mais solicitados, ...

1 a resposta

Como gerar arquivo parquet usando Java puro (incluindo tipos de data e decimais) e fazer upload para o S3 [Windows] (sem HDFS)

Recentemente, eu tinha um requisito em que precisava gerar arquivos Parquet que pudessem ser lidos pelo Apache Spark usando apenas Java (usando nenhuma instalação de software adicional, como: Apache Drill, Hive, Spark, etc.). Os arquivos ...

2 a resposta

Como ler e escrever o mapa <String, Object> de / para o arquivo de parquet em Java ou Scala?

Procurando um exemplo conciso sobre como ler e escreverMap<String, Object> de / para arquivo de parquet em Java ou Scala? Aqui está a estrutura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador em Java (ou seja, ...

5 a resposta

Parquet vs ORC vs ORC com Snappy

Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

1 a resposta

Contagem rápida de fileiras de parquet no Spark

Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...

4 a resposta

Spark Dataframe validando nomes de colunas para gravações em parquet (scala)

Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...

2 a resposta

Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento

Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...