Resultados da pesquisa a pedido "hadoop"
Como ingressar em duas tabelas no HIVE.
Eu tenho duas tabelas A e B que ambas têm a seguinte estrutura. // Table A Name Age actualdate no // Table B City sdate edate idDesejo obter todos os campos de A e B usando JOIN onde, id = no e sdate <= data atual e data> = data atual. Eu ...
lendo todos os arquivos do HDFS recursivamente no spark java api
Estou usando o spark para ler dados de todos os arquivos do HDFS em um único RDD de um diretório e também dos subdiretórios. Não consegui encontrar nenhum método eficiente para fazer isso. Então, eu tentei escrever um código personalizado, como ...
Basta obter os nomes das colunas da tabela de seção
Eu sei que você pode obter nomes de colunas de uma tabela através do seguinte truque na seção: hive> set hive.cli.print.header=true; hive> select * from tablename;Também é possívelsomenteobter os nomes das colunas da tabela? Não gosto de ...
O Hadoop não pode se conectar ao Google Cloud Storage
Estou tentando conectar o Hadoop em execução no Google Cloud VM ao Google Cloud Storage. Eu tenho: Modificou o core-site.xml para incluir as propriedades fs.gs.impl e fs.AbstractFileSystem.gs.implBaixou e referenciou ...
Mapa do Hadoop Reduzir a leitura de um arquivo de texto
Estou tentando escrever um programa MapReduce que pode ler um arquivo de entrada e gravar a saída em outro arquivo de texto. Estou planejando usar a classe BufferedReader para isso. Mas eu realmente não sei como usá-lo em um ...
Spark SQL incapaz de concluir a gravação de dados do Parquet com um grande número de shards
Estou tentando usar o Apache Spark SQL para etl json log data no S3 em arquivos Parquet também no S3. Meu código é basicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6) ...
Construindo o Apache Pig para a versão Hadoop 2.4
Eu baixei o PIG 0.14 e fiz umaant -dhadoopversion = 23 jar, mas quando o usei no Hadoop 2.4, ele não está funcionando. Há algo que eu deva fazer além de apenas executar formiga? O porco está em execução, mas mostrando ...
Existem 0 tipos de dados em execução e nenhum nó é excluído nesta operação
Eu configurei um cluster Hadoop de vários nós. O NameNode e o Secondenode secundário são executados na mesma máquina e o cluster possui apenas um Datanode. Todos os nós estão configurados nas máquinas Amazon EC2. A seguir, estão os arquivos de ...
Hbase conexão sobre erro zookeeper
Ambiente: Ubuntu 14.04, hadoop-2.2.0, hbase-0.98.7 quando inicio o hadoop e o hbase (modo de nó único), ambos bem-sucedidos (também verifico o site 8088 para hadoop, 60010 para hbase) jps 4507 SecondaryNameNode 5350 HRegionServer 4197 NameNode ...
Como configurar os VCORES no hadoop mapreduce / yarn?
A seguir, minha configuração: **mapred-site.xml** map-mb : 4096 opts:-Xmx3072m reduce-mb : 8192 opts:-Xmx6144m **yarn-site.xml** resource memory-mb : 40GB min allocation-mb : 1GBos Vcores no cluster hadoop exibiam 8GB, mas eu não sei como o ...