Resultados da pesquisa a pedido "parquet"

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

1 a resposta

Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards

Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...

2 a resposta

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

4 a resposta

Leia alguns arquivos de parquet ao mesmo tempo no Spark

Eu posso ler alguns arquivos json ao mesmo tempo usando * (estrela): sqlContext.jsonFile('/path/to/dir/*.json')Existe alguma maneira de fazer a mesma coisa com parquet? Estrela não funciona.

2 a resposta

Como ler e escrever o mapa <String, Object> de / para o arquivo de parquet em Java ou Scala?

Procurando um exemplo conciso sobre como ler e escreverMap<String, Object> de / para arquivo de parquet em Java ou Scala? Aqui está a estrutura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador em Java (ou seja, ...

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

2 a resposta

Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?

Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...

5 a resposta

Parquet vs ORC vs ORC com Snappy

Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...