Resultados da pesquisa a pedido "hdfs"

1 a resposta

Arquivos Concat Avro usando avro-tools

Estou tentando mesclar arquivos avro em um arquivo grande, o problema éconcat comando não aceita o curinga hadoop jar avro-tools.jar concat /input/part* /output/bigfile.avroEu recebo: Exceção no encadeamento "main" ...

2 a resposta

Como adicionar um arquivo de configuração typesafe localizado no HDFS para envio por spark (modo de cluster)?

Eu tenho um aplicativo Spark (Spark 1.5.2) que transmite dados do Kafka para o HDFS. Meu aplicativo contém dois arquivos de configuração Typesafe para configurar certas coisas, como o tópico Kafka etc. Agora eu quero executar meu aplicativo com ...

1 a resposta

Leitura no arquivo csv como dataframe de hdfs

Estou usando o pydoop para ler um arquivo de hdfs e quando uso: import pydoop.hdfs as hd with hd.open("/home/file.csv") as f: print f.read()Ele me mostra o arquivo no stdout. Existe alguma maneira de eu ler esse arquivo como dataframe? Eu ...

9 a resposta

Hadoop:… seja replicado para 0 nós em vez de minReplication (= 1). Existem 1 (s) tipo (s) de dados em execução e nenhum (s) nó (s) são excluídos nesta operação

Estou recebendo o seguinte erro ao tentar gravar no HDFS como parte do meu aplicativo multithread could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and no node(s) are excluded in this ...

1 a resposta

permissões de arquivo de usuário hadoop

Eu tenho um problema ao definir permissões de arquivo hadoop no hortonworks e cloudera. Minha exigência é: 1. create a new user with new group 2. create user directory in hdfs ( ex. /user/myuser ) 3. Now this folder ( in this case /user/myuser ...

1 a resposta

Como ler vários elementos de linha no Spark?

Quando você lê um arquivo no Spark usandosc.textfile, fornece elementos, onde cada elemento é uma linha separada. No entanto, quero que cada elemento seja composto por N número de linhas. Também não posso usar delimitadores porque não há nenhum ...

1 a resposta

Cloudera 5.4.2: o tamanho do bloco Avro é inválido ou muito grande ao usar o Flume e o Twitter

Há um pequeno problema quando tento o Cloudera 5.4.2. Baseie-se neste artigo Apache Flume - Buscando dados do ...

1 a resposta

Como descompactar arquivos armazenados no HDFS usando Java, sem primeiro copiar para o sistema de arquivos local?

Estamos armazenando arquivos zip, contendo arquivos XML, no HDFS. Precisamos ser capazes de descompactar programaticamente o arquivo e transmitir os arquivos XML contidos, usando Java. FileSystem.open retorna um FSDataInputStream, mas ...

2 a resposta

Leia arquivos de texto inteiro de uma compactação no Spark

Eu tenho o seguinte problema: suponha que eu tenha um diretório que contém diretórios compactados que contêm vários arquivos, armazenados no HDFS. Eu quero criar um RDD que consiste em alguns objetos do tipo T, ou seja: context = new ...

3 a resposta

Quais são os prós e os contras do formato parquet em comparação com outros formatos?

As características do Apache Parquet são: Auto-descriçãoFormato colunarIndependente do idiomaEm comparação com Avro, Sequence Files, RC File etc. Quero uma visão geral dos formatos. Eu já li:Como o Impala funciona com formatos de arquivo ...