Resultados da pesquisa a pedido "parquet"
Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?
Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...
Parquet vs ORC vs ORC com Snappy
Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...
Partição SparkPor muito mais lento que sem ela
Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...
Criar tabela do Hive para ler arquivos em parquet do esquema parquet / avro
Estamos procurando uma solução para criar uma tabela de seção externa para ler dados de arquivos em parquet de acordo com um esquema parquet / avro. de outra maneira, como gerar uma tabela de colméia a partir de um esquema parquet / ...
Spark SQL - carregando arquivos csv / psv com alguns registros malformados
Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...
Anexar novos dados a arquivos parquet particionados
Estou escrevendo um processo ETL em que precisarei ler arquivos de log por hora, particionar os dados e salvá-los. Estou usando o Spark (no Databricks). Os arquivos de log são CSV, então eu os leio e aplico um esquema, depois realizo minhas ...
Exceção do Spark: tarefa falhou ao gravar linhas
Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...
Quais são os prós e os contras do formato parquet em comparação com outros formatos?
As características do Apache Parquet são: Auto-descriçãoFormato colunarIndependente do idiomaEm comparação com Avro, Sequence Files, RC File etc. Quero uma visão geral dos formatos. Eu já li:Como o Impala funciona com formatos de arquivo ...
Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento
Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...