Resultados da pesquisa a pedido "hadoop"

1 a resposta

Qual é a diferença entre hbase e hive? (Hadoop)

Pelo meu entendimento, o Hbase é o banco de dados Hadoop e o Hive é o data warehouse. O Hive permite criar tabelas e armazenar dados nele; você também pode mapear suas tabelas HBase existentes para o Hive e operar com elas. por que devemos usar ...

3 a resposta

“Nenhum sistema de arquivos para o esquema: gs” ao executar o trabalho spark localmente

Estou executando um trabalho do Spark (versão 1.2.0) e a entrada é uma pasta dentro de um bucket do Google Clous Storage (ou seja, gs: // mybucket / folder) Ao executar o trabalho localmente na minha máquina Mac, estou recebendo o seguinte ...

2 a resposta

ler arquivos recursivamente de subdiretórios com spark do s3 ou sistema de arquivos local

Estou tentando ler arquivos de um diretório que contém muitos subdiretórios. Os dados estão no S3 e estou tentando fazer isso: val rdd ...

5 a resposta

Como acessar o S3 / S3n em uma instalação local do Hadoop 2.6?

Estou tentando reproduzir um cluster do Amazon EMR na minha máquina local. Para esse efeito, instalei oúltima versão estável do Hadoop a partir de agora - 2.6.0 [http://ftp.cixug.es/apache/hadoop/common/hadoop-2.6.0/]. Agora eu gostaria ...

1 a resposta

Muitos faliuers de busca

Eu tenho uma instalação, cluster hadoop de 2 nós no Ubuntu 12.04 e Hadoop 1.2.1. Enquanto estou tentando executar o exemplo de contagem de palavras do hadoop, estou ficando "Too many fetch faliure error". Consultei muitos artigos, mas não consigo ...

1 a resposta

Recursos / Documentação sobre como o processo de failover funciona para o Spark Driver (e seu YARN Container) no modo de cluster de fios

Estou tentando entender se o Spark Driver é um ponto único de falha ao implantar no modo de cluster para o Yarn. Então, eu gostaria de ter uma melhor compreensão das entranhas do processo de failover em relação ao contêiner YARN do driver Spark ...

2 a resposta

Práticas padrão para efetuar logon em tarefas do MapReduce

Estou tentando encontrar a melhor abordagem para fazer logon nos trabalhos do MapReduce. Estou usando o slf4j com o log4j appender como em meus outros aplicativos Java, mas como o trabalho do MapReduce é executado de maneira distribuída pelo ...

2 a resposta

Como posso calcular a mediana exata com o Apache Spark?

estepágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contém algumas funções estatísticas (média, stdev, variância etc.), mas não contém a mediana. Como posso calcular a mediana exata? obrigado

2 a resposta

Hadoop acessando bibliotecas de terceiros a partir do sistema de arquivos local de um nó Hadoop

Eu tenho um arquivo jar em todos os meus nós do Hadoop em/home/ubuntu/libs/javacv-0.9.jar , com alguns outros arquivos jar. Quando meuMapReduce aplicativo está sendo executado emHadoop nós, estou recebendo essa ...

3 a resposta

Como posso pré-dividir no hbase

Estou armazenando dados no hbase com 5 servidores de região. Estou usando o md5 hash de url como minhas chaves de linha. Atualmente, todos os dados estão sendo armazenados apenas em um servidor de região. Então, eu quero pré-dividir as regiões ...