Resultados da pesquisa a pedido "parquet"

0 a resposta

Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas

Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

3 a resposta

Gravar parquet da mangueira de incêndio da AWS Kinesis na AWS S3

Gostaria de ingerir dados no s3 do kinesis firehose formatado como parquet. Até agora, encontrei uma solução que implica a criação de um EMR, mas estou procurando algo mais barato e mais rápido, como armazenar o json recebido como parquete ...

5 a resposta

Parquet vs ORC vs ORC com Snappy

Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...

1 a resposta

Por que os arquivos Spark Parquet para um agregado são maiores que o original?

Estou tentando criar um arquivo agregado para os usuários finais utilizarem para evitar que eles processem várias fontes com arquivos muito maiores. Para fazer isso, I: A) repete todas as pastas de origem, removendo os 12 campos mais solicitados, ...

2 a resposta

Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?

Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

7 a resposta

Avro vs. Parquet

Estou planejando usar um dos formatos de arquivo hadoop para o meu projeto relacionado ao hadoop. EuCompreendoparquet é eficiente para consultas baseadas em colunas e avro para varredura completa ou quando precisamos de todos os dados das ...

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

2 a resposta

apache drill mau desempenho

Tentei usar o apache-drill para executar uma consulta simples de agregação de junção e a velocidade não era muito boa. minha consulta de teste foi: SELECT p.Product_Category, SUM(f.sales) FROM facts f JOIN Product p on f.pkey = p.pkey GROUP BY ...

1 a resposta

Tipo de hora int96 do Spark

Quando você cria uma coluna de carimbo de data / hora no spark e salva no parquet, obtém um tipo de coluna inteira de 12 bytes (int96); Eu recolho os dados são divididos em 6 bytes para o dia juliano e 6 bytes para nanossegundos dentro do ...