Resultados da pesquisa a pedido "hadoop"
/ bin / bash: / bin / java: Esse arquivo ou diretório não existe
Eu estava tentando executar um programa MapReduce simples de contagem de palavras usando o Java 1.7 SDK e o Hadoop2.7.1 no Capitão Mac OS X EL 10.11 e estou recebendo a seguinte mensagem de erro no meu log de contêiner "stderr" / bin / bash: / ...
Passagem de frascos adicionais para o Spark por envio de faísca
Estou usando o Spark com MongoDB e, consequentemente, confio nomongo-hadoop motoristas. Fiz as coisas funcionarem graças à contribuição da minha ...
Executando um aplicativo Hadoop independente em vários núcleos da CPU
Minha equipe criou um aplicativo Java usando as bibliotecas do Hadoop para transformar vários arquivos de entrada em saída útil. Dada a carga atual, um único servidor multicore se sairá bem no próximo ano. Ainda não precisamos de um cluster ...
Por que meu BroadcastHashJoin é mais lento que ShuffledHashJoin no Spark
Eu executo uma junção usando umjavaHiveContext no Spark. A mesa grande é de 1,76Gb e tem 100 milhões de registros. A segunda tabela é 273Mb e possui 10 milhões de registros. Eu recebo umJavaSchemaRDD e eu ligocount() nele: String ...
Tente atualizar ou excluir usando o gerenciador de transações que não suporta essas operações
Ao tentar atualizar os dados na tabela Hive na VM de início rápido Cloudera, estou recebendo esse erro. Erro ao compilar a instrução: FAILED: SemanticException [Erro 10294]: Tente atualizar ou excluir usando o gerenciador de transações que não ...
Quando os arquivos são "dividíveis"?
Quando estou usando o spark, às vezes encontro um arquivo enorme em umHIVE tabela, e às vezes estou tentando processar muitos arquivos menores em uma tabela HIVE. Entendo que, ao ajustar trabalhos de faísca, como ele funciona depende se ...
Como é o hive-site.xml, incluindo o $ SPARK_HOME?
Sou iniciante na seção, algo aconteceu (não consigo encontrar a tabela) quando inicio o trabalho de faísca e leio os dados da seção. Não defino hive-site.xml em $ SPARK_HOME / conf? envie o comando do trabalho de faísca está ...
Alterar coluna adicionar ou remover coluna da tabela
Eu tenho a tabela orc na seção Eu quero soltar a coluna desta tabela ALTER TABLE table_name drop col_name;mas estou recebendo a seguinte exceção Ocorreu um erro ao executar a consulta da seção: OK FAILED: Entrada incompatível da linha ...
só pôde ser replicado para 0 nós em vez de minReplication (= 1). Existem 4 tipos de dados em execução e nenhum nó é excluído nesta operação
Não sei como corrigir este erro: Vertex failed, vertexName=initialmap, vertexId=vertex_1449805139484_0001_1_00, diagnostics=[Task failed, taskId=task_1449805139484_0001_1_00_000003, diagnostics=[AttemptID:attempt_1449805139484_0001_1_00_000003_0 ...
O que é um arquivo de sequência no hadoop?
Eu sou novo no Redutor de mapas e quero entender o que é a entrada de dados do arquivo de sequência? Estudei no livro Hadoop, mas era difícil para mim entender.