Resultados da pesquisa a pedido "parquet"
A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?
Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...
apache drill mau desempenho
Tentei usar o apache-drill para executar uma consulta simples de agregação de junção e a velocidade não era muito boa. minha consulta de teste foi: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey GROUP BY ...
Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?
Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...
Exceção do Spark ao converter uma tabela MySQL em parquet
Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...
Contagem rápida de fileiras de parquet no Spark
Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...
Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?
De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...
Como converter uma tabela SQL de 500GB para Apache Parquet?
Talvez isso esteja bem documentado, mas estou ficando muito confuso sobre como fazer isso (existem muitas ferramentas Apache). Quando crio uma tabela SQL, crio a tabela usando os seguintes comandos: CREATE TABLE table_name( column1 datatype, ...
É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?
Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...
Tipo de hora int96 do Spark
Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...
O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?
Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...