Resultados da pesquisa a pedido "hadoop"
Configurar a junção lateral do mapa para vários mapeadores no Hadoop Map / Reduce
Tenho uma pergunta sobre a configuração da junção interna Mapa / Lateral para vários mapeadores no Hadoop. Suponha que eu tenha dois conjuntos de dados muito grandes A e B, use a mesma partição e algoritmo de classificação para dividi-los em ...
Como acessar o S3 / S3n em uma instalação local do Hadoop 2.6?
Estou tentando reproduzir um cluster do Amazon EMR na minha máquina local. Para esse efeito, instalei oúltima versão estável do Hadoop a partir de agora - 2.6.0 [http://ftp.cixug.es/apache/hadoop/common/hadoop-2.6.0/]. Agora eu gostaria ...
Grupos de captura REGEXP_REPLACE
Eu queria saber se alguém poderia me ajudar a entender como usar a função regexp_replace do Hive para capturar grupos no regex e usá-los na seqüência de substituição. Eu tenho um exemplo de problema que estou trabalhando abaixo, que envolve ...
Como manter os arquivos de log do YARN?
De repente, meu cluster YARN parou de funcionar, tudo o que envio falhou com "Código de saída 1". Desejo rastrear esse problema, mas assim que um aplicativo falhou, o YARN exclui os arquivos de log. Qual é a configuração que preciso ajustar para ...
Verificação de soma de verificação no Hadoop
Precisamos verificar a soma de verificação depois de mover os arquivos para o Hadoop (HDFS) de um servidor Linux por meio de um Webhdfs? Gostaria de garantir que os arquivos no HDFS não apresentem danos após serem copiados. Mas a verificação é ...
Alterar o tamanho do bloco do arquivo dfs
Atualmente, meu mapa é ineficiente ao analisar um conjunto específico de arquivos (um total de 2 TB). Gostaria de alterar o tamanho do bloco de arquivos nos dfs do Hadoop (de 64 MB para 128 MB). Não consigo encontrar como fazê-lo na documentação ...
Otimização de junção do Hive
Eu tenho dois conjuntos de dados armazenados em um bucket S3 que eu preciso processar no Hive e armazenar a saída novamente no S3. As linhas de amostra de cada conjunto de dados são as seguintes: DataSet 1: ...
Consulta Hadoop sobre o método setJarByClass da classe Job
Na documentação da API do Hadoop, é fornecido este setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.O que exatamente essa explicação significa? cria um arquivo JAR a partir do argumento ...