Resultados da pesquisa a pedido "parquet"

1 a resposta

É possível ler e escrever o Parquet usando Java sem depender do Hadoop e HDFS?

Eu tenho procurado por uma solução para esta pergunta. Parece-me que não há como incorporar a leitura e a gravação do formato Parquet em um programa Java sem gerar dependências no HDFS e no Hadoop. Isso está correto? Quero ler e gravar em uma ...

1 a resposta

Tipo de hora int96 do Spark

Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...

1 a resposta

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...

2 a resposta

Leia o arquivo Parquet armazenado no S3 com o AWS Lambda (Python 3)

Estou tentando carregar, processar e gravar arquivos Parquet no S3 com o AWS Lambda. Meu processo de teste / implantação é: https://github.com/lambci/docker-lambda [https://github.com/lambci/docker-lambda]como um contêiner para zombar ...

2 a resposta

Spark: leia o arquivo apenas se o caminho existir

Estou tentando ler os arquivos presentes emSequence de caminhos em scala. Abaixo está o código de exemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Agora, na sequência acima, existem alguns ...

3 a resposta

Usando pyarrow, como você anexa ao arquivo parquet?

Como você anexa / atualiza a umparquet arquivo compyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) table3 ...

3 a resposta

Gravar parquet da mangueira de incêndio da AWS Kinesis na AWS S3

Gostaria de ingerir dados no s3 do kinesis firehose formatado como parquet. Até agora, encontrei uma solução que implica a criação de um EMR, mas estou procurando algo mais barato e mais rápido, como armazenar o json recebido como parquete ...

1 a resposta

Por que o Impala não consegue ler arquivos em parquet após a gravação do Spark SQL?

Tendo alguns problemas com a maneira como o Spark está interpretando colunas para parquet. Eu tenho uma fonte Oracle com esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

1 a resposta

Como gerar arquivo parquet usando Java puro (incluindo tipos de data e decimais) e fazer upload para o S3 [Windows] (sem HDFS)

Recentemente, eu tinha um requisito em que precisava gerar arquivos Parquet que pudessem ser lidos pelo Apache Spark usando apenas Java (usando nenhuma instalação de software adicional, como: Apache Drill, Hive, Spark, etc.). Os arquivos ...

1 a resposta

spark 2.3.0, parquet 1.8.2 - as estatísticas para um campo binário não existem no arquivo resultante da gravação do spark?

No ramo mestre do spark - tentei escrever uma única coluna com "a", "b", "c" no arquivo em parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Mas o arquivo salvo não possui estatísticas (mín., Máx.) $ ls ...