Resultados da pesquisa a pedido "parquet"
Erro SparkR collect () e head () para Spark DataFrame: argumentos implicam número diferente de linhas
Eu li um arquivo em parquet do sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards
Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...
É possível carregar a mesa de parquet diretamente do arquivo?
Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...
Partição SparkPor muito mais lento que sem ela
Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...
Criar tabela do Hive para ler arquivos em parquet do esquema parquet / avro
Estamos procurando uma solução para criar uma tabela de seção externa para ler dados de arquivos em parquet de acordo com um esquema parquet / avro. de outra maneira, como gerar uma tabela de colméia a partir de um esquema parquet / ...
Spark SQL - carregando arquivos csv / psv com alguns registros malformados
Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...
Por que os arquivos Spark Parquet para um agregado são maiores que o original?
Estou tentando criar um arquivo agregado para os usuários finais utilizarem para evitar que eles processem várias fontes com arquivos muito maiores. Para fazer isso, I: A) repete todas as pastas de origem, removendo os 12 campos mais solicitados, ...
A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?
Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...
Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?
Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...
Exceção do Spark ao converter uma tabela MySQL em parquet
Estou tentando converter uma tabela remota do MySQL em um arquivo de parquet usando o spark 1.6.2. O processo é executado por 10 minutos, preenchendo a memória, e começa com estas mensagens: WARN NettyRpcEndpointRef: Error sending message ...