Resultados da pesquisa a pedido "parquet"

Não consegui encontrar explicações simples em inglês sobre os arquivos do Apache Parquet. Tal como: O que eles são?Preciso do Hadoop ou HDFS para visualizar / criar / armazenar?Como posso criar arquivos parquet?Como posso visualizar arquivos ...

scala apache-spark

1 a resposta

Obtenha simultaneidade ao salvar em um arquivo de parquet particionado

Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...

sql apache-spark

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

apache-spark amazon-s3 hadoop apache-spark-sql

1 a resposta

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...

amazon-s3 apache-spark jets3t apache-spark-sql

2 a resposta

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...

impala cloudera-cdh hadoop

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

hadoop avro

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

apache-spark

4 a resposta

Leia alguns arquivos de parquet ao mesmo tempo no Spark

Eu posso ler alguns arquivos json ao mesmo tempo usando * (estrela): sqlContext.jsonFile('/path/to/dir/*.json')Existe alguma maneira de fazer a mesma coisa com parquet? Estrela não funciona.

avro scala java

2 a resposta

Como ler e escrever o mapa <String, Object> de / para o arquivo de parquet em Java ou Scala?

Procurando um exemplo conciso sobre como ler e escreverMap<String, Object> de / para arquivo de parquet em Java ou Scala? Aqui está a estrutura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador em Java (ou seja, ...

apache-spark sparkr r spark-dataframe

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

Página 3 do 4

1 234

Resultados da pesquisa a pedido "parquet"

Como visualizar o arquivo Apache Parquet no Windows?

Obtenha simultaneidade ao salvar em um arquivo de parquet particionado

Como converter spark SchemaRDD em RDD da minha classe de caso?

Tags populares

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

É possível carregar a mesa de parquet diretamente do arquivo?

Avro vs. Parquet

Leia alguns arquivos de parquet ao mesmo tempo no Spark

Como ler e escrever o mapa <String, Object> de / para o arquivo de parquet em Java ou Scala?

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "parquet"

Tags populares