Resultados da pesquisa a pedido "parquet"
Parquet vs ORC vs ORC com Snappy
Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...
Spark Dataframe validando nomes de colunas para gravações em parquet (scala)
Estou processando eventos usando Dataframes convertidos de um fluxo de eventos JSON que, eventualmente, são gravados no formato Parquet. No entanto, alguns dos eventos JSON contêm espaços nas chaves que eu quero registrar e filtrar / descartar ...
Avro vs. Parquet
Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...
Como anexar dados a um arquivo parquet existente
Estou usando o código a seguir para criar o ParquetWriter e gravar registros nele. ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE); final GenericRecord record ...
Contagem rápida de fileiras de parquet no Spark
Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...
Obtenha simultaneidade ao salvar em um arquivo de parquet particionado
Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...
Como gerar arquivo parquet usando Java puro (incluindo tipos de data e decimais) e fazer upload para o S3 [Windows] (sem HDFS)
Recentemente, eu tinha um requisito em que precisava gerar arquivos Parquet que pudessem ser lidos pelo Apache Spark usando apenas Java (usando nenhuma instalação de software adicional, como: Apache Drill, Hive, Spark, etc.). Os arquivos ...
É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?
Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...
Como visualizar o arquivo Apache Parquet no Windows?
Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...
Exceção do Spark ao converter uma tabela MySQL em parquet
Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...