Resultados da pesquisa a pedido "hadoop"

4 a resposta

Fazendo com que Spark, Python e MongoDB trabalhem juntos

Estou tendo dificuldade em unir esses componentes corretamente. Tenho o Spark instalado e funcionando com êxito, posso executar trabalhos localmente, autônomo e também via YARN. Eu segui os passos recomendados (o melhor que ...

3 a resposta

Implementação do combinador e trabalho interno

Quero usar um combinador no meu código de RM, como WordCount. Como devo implementá-lo? Que tipo de dados está sendo passado ao combinador para o redutor? Será ótimo se algum de vocês puder me fornecer códigos do Combiner e do Redutor. Será ...

4 a resposta

Conjunto de dados do Twitter (redes sociais)

Estou procurando o twitter ou outros sites de redes sociais para o meu projeto. Atualmente, tenho o conjunto de dados do Twitter do CAW 2.0, mas ele contém apenas tweets de usuários. Eu quero um dado que mostre o número de amigos, seguidores e ...

1 a resposta

Como excluir um tópico no apache kafka [duplicado]

Esta pergunta já tem uma resposta aqui: Excluir tópico no Kafka 0.8.1.1 [/questions/24287900/delete-topic-in-kafka-0-8-1-1] 13 respostasPreciso excluir um tópico no kafka-0.8.2.2.3. Eu usei o comando abaixo para excluir o ...

1 a resposta

Como obter a diferença de data em minutos usando o Hive

A consulta abaixo é minha consulta ao servidor sql e quero convertê-la em consulta de seção: select DATEDIFF([minute], '19000101', '2013-01-01 10:10:10')

3 a resposta

Colunas duplicadas no Spark Dataframe

Eu tenho um arquivo csv de 10 GB no cluster hadoop com colunas duplicadas. Eu tento analisá-lo no SparkR para usarspark-csv pacote para analisá-lo comoDataFrame: df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = ...

3 a resposta

Obter propriedades da tabela do Hive usando a API Java

Estou tentando obter propriedades da tabela como tabela db, nome, proprietário e localização de hdfs fora do metastore do hive usando o cliente metastore em java. Eu acho que posso obter os bancos de dados e nomes de tabelas bem, mas não consigo ...

1 a resposta

Por que o modo de dados Dockerized Hadoop está sendo registrado com o endereço IP errado?

Tenho imagens separadas do Docker (1.9.1) para os nomes de nó e de dados do Hadoop (2.7.1). Posso criar contêineres a partir deles e comunicá-los por uma rede Docker definida pelo usuário. No entanto, o tipo de dados parece reportar-se como tendo ...

1 a resposta

hive substituir diretório mover processo como distcp?

Quando eu corro umINSERT OVERWRITE DIRECTORY consulta no hive, parece armazenar os resultados em um.hivexxxx pasta de teste e mova os arquivos de lá para o diretório ... No final do processo de redução do mapa, mostra o seguinte: Moving data ...

1 a resposta

Oozie> Ação Java> por que a propriedade oozie.launcher.mapred.child.java.opts não funciona

Estou trabalhando no Oozie com uma ação Java. A ação Java deve usar a opção Java -Xmx15g. Assim, defino a propriedade oozie.mapreduce.map.memory.mb como 25600 (25G), caso seja necessária alguma memória extra. Após essa configuração simples, ...