Resultados da pesquisa a pedido "parquet"

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

2 a resposta

apache drill mau desempenho

Tentei usar o apache-drill para executar uma consulta simples de agregação de junção e a velocidade não era muito boa. minha consulta de teste foi: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey GROUP BY ...

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...

1 a resposta

Contagem rápida de fileiras de parquet no Spark

Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

2 a resposta

Como converter uma tabela SQL de 500GB para Apache Parquet?

Talvez isso esteja bem documentado, mas estou ficando muito confuso sobre como fazer isso (existem muitas ferramentas Apache). Quando crio uma tabela SQL, crio a tabela usando os seguintes comandos: CREATE TABLE table_name( column1 datatype, ...

1 a resposta

É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?

Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...

1 a resposta

Tipo de hora int96 do Spark

Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...

1 a resposta

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...