Resultados da pesquisa a pedido "parquet"

1 a resposta

Partição SparkPor muito mais lento que sem ela

Eu testei a escrita com: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)No entanto, se eu deixar de fora o particionamento: df.write .mode(SaveMode.Append) .parquet(filePath)Ele executa 100x (!) Mais rápido. É ...

4 a resposta

Como converter spark SchemaRDD em RDD da minha classe de caso?

Nos documentos do Spark, é claro como criar arquivos parquet a partir deRDD de suas próprias classes de casos; (dos documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is implicitly ...

1 a resposta

Por que o Apache Spark lê colunas Parquet desnecessárias em estruturas aninhadas?

Minha equipe está criando um processo ETL para carregar arquivos de texto delimitados em bruto em um "data lake" baseado em Parquet usando o Spark. Uma das promessas do armazenamento de colunas do Parquet é que uma consulta leia apenas as "faixas ...

1 a resposta

Obtenha simultaneidade ao salvar em um arquivo de parquet particionado

Ao escrever umdataframe paraparquet usandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path)Seria minha expectativa que cada partição sendo gravada fosse executada de forma independente por uma tarefa separada e em paralelo ...

2 a resposta

Erro EntityTooLarge ao fazer upload de um arquivo 5G no Amazon S3

O limite de tamanho do arquivo Amazon S3 deve ser de 5T, de acordo com este anúncio [http://aws.amazon.com/blogs/aws/amazon-s3-object-size-limit/], mas estou recebendo o seguinte erro ao fazer upload de um arquivo ...

1 a resposta

O arquivo Parquet com gzip pode ser dividido no HDFS for Spark?

Recebo mensagens confusas ao pesquisar e ler respostas na Internet sobre esse assunto. Alguém pode compartilhar sua experiência? Eu sei que csv compactado com gzip não é, mas talvez as estruturas internas de arquivo do Parquet sejam de tal ordem ...

1 a resposta

A consulta em um Spark DataFrame baseada em CSV é mais rápida que em um baseado no Parquet?

Preciso carregar um arquivo CSV do HDFS usando o Spark noDataFrame. Eu queria saber se há uma melhoria de "desempenho" (velocidade de consulta) de um DataFrame suportado por um arquivo CSV vs um suportado por um arquivo parquet? Normalmente, ...

3 a resposta

Gravar parquet da mangueira de incêndio da AWS Kinesis na AWS S3

Gostaria de ingerir dados no s3 do kinesis firehose formatado como parquet. Até agora, encontrei uma solução que implica a criação de um EMR, mas estou procurando algo mais barato e mais rápido, como armazenar o json recebido como parquete ...

1 a resposta

É possível carregar a mesa de parquet diretamente do arquivo?

Se eu tiver um arquivo de dados binários (ele pode ser convertido para o formato csv), existe alguma maneira de carregar a tabela de parquet diretamente dele? Muitos tutoriais mostram o carregamento do arquivo csv na tabela de texto e depois da ...

2 a resposta

Como lidar com tarefas que executam muito tempo (comparando com outras pessoas no trabalho) no yarn-client?

Usamos um cluster Spark comoyarn-client para calcular vários negócios, mas às vezes temos uma tarefa executada por muito tempo: [/imgs/IWSbQ.png] Não definimos o tempo limite, mas acho que o tempo limite padrão de uma tarefa de faísca não é ...