Resultados da pesquisa a pedido "hadoop"

2 a resposta

Falha no trabalho de streaming do Hadoop (sem êxito) em Python

Estou tentando executar um trabalho de redução de mapa no Hadoop Streaming com scripts Python e obtendo os mesmos erros queFalha no trabalho de streaming do Hadoop em ...

1 a resposta

Por que um trabalho somente de mapa na seção resulta em um único arquivo de saída

Quando executo a consulta a seguir, recebo apenas um arquivo como saída, embora tenha 8 mapeadores e 0 redutores. create table table_2 as select * from table_1.8 mapeadores são chamados e não há fase redutora. Existe apenas um arquivo no local ...

3 a resposta

Por que verificar se um arquivo existe no hadoop causa uma NullPointerException?

Estou tentando criar ou abrir um arquivo para armazenar alguma saída no HDFS, mas estou recebendo uma NullPointerException quando chamo oexists método na penúltima linha do trecho de código abaixo: DistributedFileSystem dfs = new ...

1 a resposta

MapReduce classificar por valor em ordem decrescente

Estou tentando escrever em pseudo-código uma tarefa MapReduce que retorna os itens classificados em ordem decrescente. Por exemplo: para a tarefa de contagem de palavras, em vez de obter: apple 1 banana 3 mango 2Eu quero que a saída ...

2 a resposta

Qual é a diferença entre spark.sql.shuffle.partitions e spark.default.parallelism?

Qual é a diferença entrespark.sql.shuffle.partitions espark.default.parallelism? Eu tentei colocar os dois emSparkSQL, mas o número da tarefa do segundo estágio é sempre 200.

1 a resposta

Ao executar com o 'fio' principal, HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente

Estou tentando executar o Spark usando fio e estou com este erro: Exceção no encadeamento "main" java.lang.Exception: Ao executar com o mestre 'fio', HADOOP_CONF_DIR ou YARN_CONF_DIR deve ser configurado no ambiente. Não sei onde está o ...

1 a resposta

Erro Kerberos ao conectar-se ao impala e hbase

Estamos desenvolvendo um aplicativo da web que interage com componentes do hadoop, como HDFS, HBase e Impala. O cluster é kerberizado, estamos autenticando com a configuração do JAAS. Estamos configurando o JAAS nos argumentos da VM como ...

2 a resposta

Criar seção de tabela externa, o local contém vários arquivos dentro

CREATE EXTERNAL TABLE IF NOT EXISTS LOGS (LGACT STRING,NTNAME STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/user/hive/warehouse/LOGS/test';na pasta 'test' estou escrevendo arquivos diariamente. por ...

0 a resposta

O que a fase de embaralhamento realmente faz?

O que a fase de embaralhamento realmente faz? A) Como o embaralhamento é o processo de trazer o mapeador o / p para o redutor o / p, ele apenas traz as chaves específicas dos mapeadores para os redutores específicos com base no código escrito no ...

1 a resposta

Desempenho da consulta do Hive para campo de alta cardinalidade

Eu tenho uma tabela única mas enorme na seção, que quase sempre será consultada com a coluna da chave primária (por exemplo,employee_id) A tabela será realmente enorme, milhões de linhas serão inseridas todos os dias e eu quero ...