Resultados da pesquisa a pedido "parquet"

1 a resposta

Exceção do Spark ao converter uma tabela MySQL em parquet

Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...

1 a resposta

Como gerar arquivo parquet usando Java puro (incluindo tipos de data e decimais) e fazer upload para o S3 [Windows] (sem HDFS)

Recentemente, eu tinha um requisito em que precisava gerar arquivos Parquet que pudessem ser lidos pelo Apache Spark usando apenas Java (usando nenhuma instalação de software adicional, como: Apache Drill, Hive, Spark, etc.). Os arquivos ...

3 a resposta

Quais são os prós e os contras do formato parquet em comparação com outros formatos?

As características do Apache Parquet são: Auto-descriçãoFormato colunarIndependente do idiomaEm comparação com Avro, Sequence Files, RC File etc. Quero uma visão geral dos formatos. Eu já li:Como o Impala funciona com formatos de arquivo ...

3 a resposta

Como visualizar o arquivo Apache Parquet no Windows?

Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...

1 a resposta

Criar tabela do Hive para ler arquivos em parquet do esquema parquet / avro

Estamos procurando uma solução para criar uma tabela de seção externa para ler dados de arquivos em parquet de acordo com um esquema parquet / avro. de outra maneira, como gerar uma tabela de colméia a partir de um esquema parquet / ...

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

1 a resposta

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

2 a resposta

Spark: leia o arquivo apenas se o caminho existir

Estou tentando ler os arquivos presentes emSequence de caminhos em scala. Abaixo está o código de exemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Agora, na sequência acima, existem alguns ...