Resultados da pesquisa a pedido "hadoop"

2 a resposta

Configurar a junção lateral do mapa para vários mapeadores no Hadoop Map / Reduce

Tenho uma pergunta sobre a configuração da junção interna Mapa / Lateral para vários mapeadores no Hadoop. Suponha que eu tenha dois conjuntos de dados muito grandes A e B, use a mesma partição e algoritmo de classificação para dividi-los em ...

5 a resposta

Como acessar o S3 / S3n em uma instalação local do Hadoop 2.6?

Estou tentando reproduzir um cluster do Amazon EMR na minha máquina local. Para esse efeito, instalei oúltima versão estável do Hadoop a partir de agora - 2.6.0 [http://ftp.cixug.es/apache/hadoop/common/hadoop-2.6.0/]. Agora eu gostaria ...

1 a resposta

Grupos de captura REGEXP_REPLACE

Eu queria saber se alguém poderia me ajudar a entender como usar a função regexp_replace do Hive para capturar grupos no regex e usá-los na seqüência de substituição. Eu tenho um exemplo de problema que estou trabalhando abaixo, que envolve ...

1 a resposta

Como manter os arquivos de log do YARN?

De repente, meu cluster YARN parou de funcionar, tudo o que envio falhou com "Código de saída 1". Desejo rastrear esse problema, mas assim que um aplicativo falhou, o YARN exclui os arquivos de log. Qual é a configuração que preciso ajustar para ...

2 a resposta

Instalando o plug-in do Eclipse do Hadoop

5 a resposta

Verificação de soma de verificação no Hadoop

Precisamos verificar a soma de verificação depois de mover os arquivos para o Hadoop (HDFS) de um servidor Linux por meio de um Webhdfs? Gostaria de garantir que os arquivos no HDFS não apresentem danos após serem copiados. Mas a verificação é ...

5 a resposta

Alterar o tamanho do bloco do arquivo dfs

Atualmente, meu mapa é ineficiente ao analisar um conjunto específico de arquivos (um total de 2 TB). Gostaria de alterar o tamanho do bloco de arquivos nos dfs do Hadoop (de 64 MB para 128 MB). Não consigo encontrar como fazê-lo na documentação ...

1 a resposta

Otimização de junção do Hive

Eu tenho dois conjuntos de dados armazenados em um bucket S3 que eu preciso processar no Hive e armazenar a saída novamente no S3. As linhas de amostra de cada conjunto de dados são as seguintes: DataSet 1: ...

3 a resposta

Consulta Hadoop sobre o método setJarByClass da classe Job

Na documentação da API do Hadoop, é fornecido este setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.O que exatamente essa explicação significa? cria um arquivo JAR a partir do argumento ...

1 a resposta

Ainda recebendo "Não é possível carregar informações sobre o território do SCDynamicStore" após correção de bug

Eu instalei