Resultados da pesquisa a pedido "hadoop"
Qual é a diferença entre hbase e hive? (Hadoop)
Pelo meu entendimento, o Hbase é o banco de dados Hadoop e o Hive é o data warehouse. O Hive permite criar tabelas e armazenar dados nele; você também pode mapear suas tabelas HBase existentes para o Hive e operar com elas. por que devemos usar ...
“Nenhum sistema de arquivos para o esquema: gs” ao executar o trabalho spark localmente
Estou executando um trabalho do Spark (versão 1.2.0) e a entrada é uma pasta dentro de um bucket do Google Clous Storage (ou seja, gs: // mybucket / folder) Ao executar o trabalho localmente na minha máquina Mac, estou recebendo o seguinte ...
ler arquivos recursivamente de subdiretórios com spark do s3 ou sistema de arquivos local
Estou tentando ler arquivos de um diretório que contém muitos subdiretórios. Os dados estão no S3 e estou tentando fazer isso: val rdd ...
Como acessar o S3 / S3n em uma instalação local do Hadoop 2.6?
Estou tentando reproduzir um cluster do Amazon EMR na minha máquina local. Para esse efeito, instalei oúltima versão estável do Hadoop a partir de agora - 2.6.0 [http://ftp.cixug.es/apache/hadoop/common/hadoop-2.6.0/]. Agora eu gostaria ...
Muitos faliuers de busca
Eu tenho uma instalação, cluster hadoop de 2 nós no Ubuntu 12.04 e Hadoop 1.2.1. Enquanto estou tentando executar o exemplo de contagem de palavras do hadoop, estou ficando "Too many fetch faliure error". Consultei muitos artigos, mas não consigo ...
Recursos / Documentação sobre como o processo de failover funciona para o Spark Driver (e seu YARN Container) no modo de cluster de fios
Estou tentando entender se o Spark Driver é um ponto único de falha ao implantar no modo de cluster para o Yarn. Então, eu gostaria de ter uma melhor compreensão das entranhas do processo de failover em relação ao contêiner YARN do driver Spark ...
Práticas padrão para efetuar logon em tarefas do MapReduce
Estou tentando encontrar a melhor abordagem para fazer logon nos trabalhos do MapReduce. Estou usando o slf4j com o log4j appender como em meus outros aplicativos Java, mas como o trabalho do MapReduce é executado de maneira distribuída pelo ...
Como posso calcular a mediana exata com o Apache Spark?
estepágina [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] contém algumas funções estatísticas (média, stdev, variância etc.), mas não contém a mediana. Como posso calcular a mediana exata? obrigado
Hadoop acessando bibliotecas de terceiros a partir do sistema de arquivos local de um nó Hadoop
Eu tenho um arquivo jar em todos os meus nós do Hadoop em/home/ubuntu/libs/javacv-0.9.jar , com alguns outros arquivos jar. Quando meuMapReduce aplicativo está sendo executado emHadoop nós, estou recebendo essa ...
Como posso pré-dividir no hbase
Estou armazenando dados no hbase com 5 servidores de região. Estou usando o md5 hash de url como minhas chaves de linha. Atualmente, todos os dados estão sendo armazenados apenas em um servidor de região. Então, eu quero pré-dividir as regiões ...