Resultados da pesquisa a pedido "hadoop"

1 a resposta

Compilação do Hadoop Falha no Windows: o zconf.h está ausente do native.sln?

Estou tentando criar a seguinte versão do hadoop no computador de desenvolvimento com o Windows 10 Home Edition hadoop-2.7.3-src Aqui estão os detalhes sobre o meu ambiente de desenvolvimento local: Windows 10 Home Edition Processador Intel ...

3 a resposta

Evite a criação de chaves _ $ folder $ no S3 com o hadoop (EMR)

Estou usando uma atividade EMR no pipeline de dados da AWS. Esta atividade EMR está executando um script de seção no cluster EMR. Ele pega o dínamo DB como entrada e armazena dados no S3. Esta é a etapa de EMR usada na Atividade de ...

1 a resposta

Autenticação do servidor Spark History no cluster Kerberized

Eu configurei um cluster HDP que contém, entre outros, o Spark. Também habilitei o Kerberos para o cluster, para que todos os serviços e usuários tenham que se autenticar através de seus principais. Isso parece funcionar bem, todos os serviços ...

1 a resposta

Spark sem Hadoop: falha ao iniciar

Estou executando o Spark 2.1.0, Hive 2.1.1 e Hadoop 2.7.3 no Ubuntu 16.04. Eu baixo o projeto Spark do github e construo a versão "without hadoop": ./dev/make-distribution.sh --name "hadoop2-sem-ramificação" --tgz "-Pyarn, fornecido pelo ...

1 a resposta

Como remover duplicatas na cadeia de hive?

Eu tenho a vírgula da coluna (string) separada com valores duplicados. Quero remover duplicatas: por exemplo. nome da coluna ----------------- arma, arma, homem, arma, homem lançadeira, inimigo, inimigo, corra bater, perseguir Quero resultado ...

1 a resposta

Configurando o Spark como mecanismo de execução padrão para o Hive

Hadoop 2.7.3, Spark 2.1.0 e Hive 2.1.1. Estou tentando definir o spark como mecanismo de execução padrão para o hive. Carreguei todos os frascos em $ SPARK_HOME / jars na pasta hdfs e copiei os frascos comuns de scala-library, spark-core e ...

2 a resposta

O valor da variável global não muda depois para Loop

Estou desenvolvendo um projeto hadoop. Quero encontrar clientes em um determinado dia e depois escrever aqueles com o consumo máximo nesse dia. Na minha classe redutora, por algum motivo, a variável globalmax não altera seu valor após um loop ...

2 a resposta

Falha no derramamento do Hadoop

Atualmente, estou trabalhando em um projeto usando o Hadoop 0.21.0, 985326 e um cluster de 6 nós de trabalho e um nó principal. O envio de um trabalho regular de mapreduce falha, mas não faço ideia do porquê. Alguém viu essa exceção ...

1 a resposta

Acesse uma Hive segura ao executar o Spark em um cluster YARN não seguro

Temos dois clusters cloudera 5.7.1, um protegido usando o Kerberos e outro não seguro. É possível executar o Spark usando o cluster YARN não seguro enquanto acessa as tabelas de seção armazenadas no cluster seguro? (A versão Spark é 1.6) Em ...

3 a resposta

Excluir arquivos com mais de 10 dias no HDFS

Existe uma maneira de excluir arquivos com mais de 10 dias no HDFS? No Linux eu usaria: find /path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; Existe uma maneira de fazer isso no HDFS? (Exclusão a ser feita com base na ...