Resultados da pesquisa a pedido "hadoop"
Onde está o erro de sintaxe nesta consulta simples do Hive com STRUCT?
Vamos importar uma tabela simples no Hive: hive> CREATE EXTERNAL TABLE tweets (id BIGINT, id_str STRING, user STRUCT<id:BIGINT, screen_name:STRING>) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSerde' LOCATION '/projets/tweets'; ...
Como é possível listar todos os arquivos csv em um local HDFS no shell Spark Scala?
O objetivo disso é manipular e salvar uma cópia de cada arquivo de dados em um segundo local no HDFS. Eu vou estar usando RddName.coalesce(1).saveAsTextFile(pathName)para salvar o resultado no HDFS. É por isso que quero fazer cada arquivo ...
Hadoop - Ajuda necessária para entender as etapas de processamento
Eu tenho um arquivo compactado e contém 8 arquivos xml de tamanho 5-10kb. Peguei esses dados para fins de teste. Eu escrevi um programa apenas de mapa para descompactar o arquivo compactado. Euwrote program in MR2 and using Hadoop 2.7.1 in psuedo ...
Spark NullPointerException com saveAsTextFile
Estou recebendo um NPE ao tentar unir e salvar um RDD. O código funciona localmente,e funciona no cluster no shell scala, mas gera o erro ao enviá-lo como um trabalho para o cluster. Eu tentei imprimir usando um take () para ver se o rdd contém ...
Hive: lançando a matriz <string> para a matriz <int> na consulta
Eu tenho duas mesas : create table a ( `1` array<string>); create table b ( `1` array<int>);e eu quero colocar a tabela a na tabela b (a tabela b está vazia): insert into table b select * from a;ao fazer isso, recebo o seguinte erro: FAILED: ...
Fornecendo vários arquivos não textuais para um único mapa no Hadoop MapReduce
Atualmente, estou escrevendo um aplicativo distribuído que analisa arquivos PDF com a ajuda do Hadoop MapReduce. O trabalho de entrada no MapReduce é de milhares de arquivos PDF (que geralmente variam de 100 KB a ~ 2 MB) e o resultado é um ...
Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?
Eu tenho um programa Spark (em Scala) e umSparkContext. Estou escrevendo alguns arquivos comRDDésaveAsTextFile. Na minha máquina local, posso usar um caminho de arquivo local e ele funciona com o sistema de arquivos local. No meu cluster, ele ...
Chaves primárias com Apache Spark
Estou tendo uma conexão JDBC com o Apache Spark e o PostgreSQL e quero inserir alguns dados no meu banco de dados. Quando eu usoappend modo eu preciso especificarid para cadaDataFrame.Row. Existe alguma maneira do Spark criar chaves primárias?
Como os contêineres são criados com base em vcores e memória no MapReduce2?
Eu tenho um pequeno cluster composto de 1 mestre (namenode, secundárionamenode, resourcemanager) e 2 escravos (datanode, nodemanager). Eu configurei no yarn-site.xml do master: yarn.scheduler.minimum-allocation-mb : ...
biblioteca de erros de compilação spark sbt
1.2.0-bin-hadoop2.4 e minha versão do Scala é2.11.7. Estou recebendo um erro, então não posso usar o sbt. ~/sparksample$ sbtStarting sbt: invoke with -help for other options [info] Set current project to Spark Sample (in build ...