Resultados da pesquisa a pedido "parquet"

3 a resposta

Como visualizar o arquivo Apache Parquet no Windows?

Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...

1 a resposta

Obtenha simultaneidade ao salvar em um arquivo de parquet particionado

Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

1 a resposta

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...

2 a resposta

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

4 a resposta

Leia alguns arquivos de parquet ao mesmo tempo no Spark

Eu posso ler alguns arquivos json ao mesmo tempo usando * (estrela): sqlContext.jsonFile('/path/to/dir/*.json')Existe alguma maneira de fazer a mesma coisa com parquet? Estrela não funciona.

2 a resposta

Como ler e escrever o mapa <String, Object> de / para o arquivo de parquet em Java ou Scala?

Procurando um exemplo conciso sobre como ler e escreverMap<String, Object> de / para arquivo de parquet em Java ou Scala? Aqui está a estrutura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador em Java (ou seja, ...

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...