Resultados da pesquisa a pedido "hadoop"

1 a resposta

Onde está o erro de sintaxe nesta consulta simples do Hive com STRUCT?

Vamos importar uma tabela simples no Hive: hive> CREATE EXTERNAL TABLE tweets (id BIGINT, id_str STRING, user STRUCT<id:BIGINT, screen_name:STRING>) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.JsonSerde' LOCATION '/projets/tweets'; ...

3 a resposta

Como é possível listar todos os arquivos csv em um local HDFS no shell Spark Scala?

O objetivo disso é manipular e salvar uma cópia de cada arquivo de dados em um segundo local no HDFS. Eu vou estar usando RddName.coalesce(1).saveAsTextFile(pathName)para salvar o resultado no HDFS. É por isso que quero fazer cada arquivo ...

1 a resposta

Hadoop - Ajuda necessária para entender as etapas de processamento

Eu tenho um arquivo compactado e contém 8 arquivos xml de tamanho 5-10kb. Peguei esses dados para fins de teste. Eu escrevi um programa apenas de mapa para descompactar o arquivo compactado. Euwrote program in MR2 and using Hadoop 2.7.1 in psuedo ...

1 a resposta

Spark NullPointerException com saveAsTextFile

Estou recebendo um NPE ao tentar unir e salvar um RDD. O código funciona localmente,e funciona no cluster no shell scala, mas gera o erro ao enviá-lo como um trabalho para o cluster. Eu tentei imprimir usando um take () para ver se o rdd contém ...

2 a resposta

Hive: lançando a matriz <string> para a matriz <int> na consulta

Eu tenho duas mesas : create table a ( `1` array<string>); create table b ( `1` array<int>);e eu quero colocar a tabela a na tabela b (a tabela b está vazia): insert into table b select * from a;ao fazer isso, recebo o seguinte erro: FAILED: ...

2 a resposta

Fornecendo vários arquivos não textuais para um único mapa no Hadoop MapReduce

Atualmente, estou escrevendo um aplicativo distribuído que analisa arquivos PDF com a ajuda do Hadoop MapReduce. O trabalho de entrada no MapReduce é de milhares de arquivos PDF (que geralmente variam de 100 KB a ~ 2 MB) e o resultado é um ...

4 a resposta

Posso gravar um arquivo HDFS (ou local) de texto sem formatação de um programa Spark, não de um RDD?

Eu tenho um programa Spark (em Scala) e umSparkContext. Estou escrevendo alguns arquivos comRDDésaveAsTextFile. Na minha máquina local, posso usar um caminho de arquivo local e ele funciona com o sistema de arquivos local. No meu cluster, ele ...

3 a resposta

Chaves primárias com Apache Spark

Estou tendo uma conexão JDBC com o Apache Spark e o PostgreSQL e quero inserir alguns dados no meu banco de dados. Quando eu usoappend modo eu preciso especificarid para cadaDataFrame.Row. Existe alguma maneira do Spark criar chaves primárias?

1 a resposta

Como os contêineres são criados com base em vcores e memória no MapReduce2?

Eu tenho um pequeno cluster composto de 1 mestre (namenode, secundárionamenode, resourcemanager) e 2 escravos (datanode, nodemanager). Eu configurei no yarn-site.xml do master: yarn.scheduler.minimum-allocation-mb : ...

3 a resposta

biblioteca de erros de compilação spark sbt

1.2.0-bin-hadoop2.4 e minha versão do Scala é2.11.7. Estou recebendo um erro, então não posso usar o sbt. ~/sparksample$ sbtStarting sbt: invoke with -help for other options [info] Set current project to Spark Sample (in build ...