Resultados da pesquisa a pedido "hadoop"
Aumento da memória física para um aplicativo Spark no YARN
Estou executando um aplicativo Spark no YARN com dois executores com Xms / Xmx como 32 GB e spark.yarn.excutor.memoryOverhead como 6 GB. Estou vendo que a memória física do aplicativo está sempre aumentando e finalmente é eliminada pelo ...
Max / Min para conjuntos inteiros de registros em PIG
Eu tenho um conjunto de registros que estou carregando de um arquivo e a primeira coisa que preciso fazer é obter o máximo e o mínimo de uma coluna. No SQL, eu faria isso com uma subconsulta como esta: select c.state, c.population, (select ...
A interface do Hadoop mostra apenas um Datanode
Comecei o cluster hadoop composto por nós principais e 4 escravos. A configuração parece ok: hduser @ ubuntu-amd64: / usr / local / hadoop $ ./bin/hdfs dfsadmin -report [http://pastebin.com/6QfgKMmk] Quando insiro a interface do usuário ...
Configurando caminhos de classe spark no EC2: spark.driver.extraClassPath e spark.executor.extraClassPath
Reduzindo o tamanho do jar do aplicativo, fornecendo sparkPathPath para dependências automatizadas: Meu cluster está tendo 3 instâncias ec2 nas quais o hadoop e o spark estão em execução.Se eu criar jar com dependências maven, ele se tornará ...
Apache hive MSCK REPAIR TABLE nova partição não adicionada
Eu sou novo no Apache Hive. Enquanto trabalho na partição de tabela externa, se eu adicionar uma nova partição diretamente ao HDFS, a nova partição não será adicionada após a execução da tabela MSCK REPAIR. Abaixo estão os códigos que tentei, - ...
Como configurar o Hadoop no Docker Swarm?
Gostaria de iniciar um cluster do Hadoop no Docker, distribuindo os nós do Hadoop para os diferentes nós físicos, usandoenxame [https://docs.docker.com/engine/swarm/]. Eu encontrei a imagem sequenceiq que me permite executar o hadoop em ...
É possível restringir um trabalho do MapReduce de acessar dados remotos?
Temos um algoritmo específico que queremos integrar com o HDFS. O algoritmo exige que acessemos dados localmente (o trabalho seria realizado exclusivamente noMapper) No entanto, queremos tirar proveito do HDFS em termos de distribuição do arquivo ...
Adicionando boiões de colmeia permanentemente
Existe alguma maneira de adicionar permanentemente os jars do hive em vez de adicionar no nível da sessão no shell do hive? Qualquer ajuda seria apreciada
Verificação de soma de verificação no Hadoop
Precisamos verificar a soma de verificação depois de mover os arquivos para o Hadoop (HDFS) de um servidor Linux por meio de um Webhdfs? Gostaria de garantir que os arquivos no HDFS não apresentem danos após serem copiados. Mas a verificação é ...
Como exportar dados do Spark SQL para CSV
Este comando funciona com o HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Mas com o Spark SQL, estou recebendo um erro com umorg.apache.spark.sql.hive.HiveQl rastreamento de pilha: java.lang.RuntimeException: ...