Resultados da pesquisa a pedido "parquet"

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

performance apache-drill

2 a resposta

apache drill mau desempenho

Tentei usar o apache-drill para executar uma consulta simples de agregação de junção e a velocidade não era muito boa. minha consulta de teste foi: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey GROUP BY ...

spark-dataframe apache-spark

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

apache-spark apache-spark-sql

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...

apache-spark

1 a resposta

Contagem rápida de fileiras de parquet no Spark

Os arquivos do Parquet contêm um campo de contagem de linhas por bloco. O Spark parece lê-lo em algum momento ...

amazon-emr bigdata emr amazon-s3

1 a resposta

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

De duas em duas horas, o trabalho do spark está em execução para converter alguns arquivos tgz em parquet. O trabalho anexa os novos dados a um parquet existente no ...

hadoop mysql sql-server

2 a resposta

Como converter uma tabela SQL de 500GB para Apache Parquet?

Talvez isso esteja bem documentado, mas estou ficando muito confuso sobre como fazer isso (existem muitas ferramentas Apache). Quando crio uma tabela SQL, crio a tabela usando os seguintes comandos: CREATE TABLE table_name( column1 datatype, ...

java apache-drill hadoop data-formats

1 a resposta

É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?

Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...

datetime apache-spark

1 a resposta

Tipo de hora int96 do Spark

Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...

gzip apache-spark

1 a resposta

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...

Página 3 do 4

1 234

Resultados da pesquisa a pedido "parquet"

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

apache drill mau desempenho

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Tags populares

Exceção do Spark ao converter uma tabela MySQL em parquet

Contagem rápida de fileiras de parquet no Spark

Como evitar a leitura de arquivos antigos do S3 ao anexar novos dados?

Como converter uma tabela SQL de 500GB para Apache Parquet?

É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?

Tipo de hora int96 do Spark

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "parquet"

Tags populares