Resultados da pesquisa a pedido "parquet"

2 a resposta

Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?

Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...

5 a resposta

Parquet vs ORC vs ORC com Snappy

Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...

1 a resposta

Criar tabela do Hive para ler arquivos em parquet do esquema parquet / avro

Estamos procurando uma solução para criar uma tabela de seção externa para ler dados de arquivos em parquet de acordo com um esquema parquet / avro. de outra maneira, como gerar uma tabela de colméia a partir de um esquema parquet / ...

1 a resposta

Spark SQL - carregando arquivos csv / psv com alguns registros malformados

Estamos carregando hierarquias de diretórios de arquivos com o Spark e convertendo-os em Parquet. Existem dezenas de gigabytes em centenas de arquivos separados por canal. Alguns são bem grandes. Cada 100, digamos, 100º arquivo possui uma ou ...

2 a resposta

Anexar novos dados a arquivos parquet particionados

Estou escrevendo um processo ETL em que precisarei ler arquivos de log por hora, particionar os dados e salvá-los. Estou usando o Spark (no Databricks). Os arquivos de log são CSV, então eu os leio e aplico um esquema, depois realizo minhas ...

5 a resposta

Exceção do Spark: tarefa falhou ao gravar linhas

Estou lendo arquivos de texto e convertendo-os em arquivos em parquet. Estou fazendo isso usando o código spark. Mas quando tento executar o código, recebo a seguinte exceção org.apache.spark.SparkException: Job aborted due to stage failure: ...

3 a resposta

Quais são os prós e os contras do formato parquet em comparação com outros formatos?

As características do Apache Parquet são: Auto-descriçãoFormato colunarIndependente do idiomaEm comparação com Avro, Sequence Files, RC File etc. Quero uma visão geral dos formatos. Eu já li:Como o Impala funciona com formatos de arquivo ...

2 a resposta

Usar o Spark para escrever um arquivo em parquet para s3 sobre s3a é muito lento

Estou tentando escrever umparquet arquivar paraAmazon S3 usandoSpark 1.6.1. O pequenoparquet que eu estou gerando é~2GB uma vez escrito, portanto, não há muitos dados. Estou tentando provarSpark como uma plataforma que eu possa ...