Resultados da pesquisa a pedido "hadoop"
Mesclar arquivos CSV de saída do Spark com um único cabeçalho
Quero criar um pipeline de processamento de dados na AWS para, eventualmente, usar os dados processados para o Machine Learning. Eu tenho um script Scala que pega dados brutos do S3, os processa e os grava no HDFS ou mesmo no S3 comSpark-CSV. Eu ...
Explodir a matriz de estrutura na colmeia
Esta é a tabela abaixo da colmeia
Por que enviar trabalho para a mapreduce leva tanto tempo em geral?
Então, normalmente, para o trabalho de envio de cluster de 20 nós para processar 3 GB (200 divisões) de dados, leva cerca de 30 segundos e a execução real é ...
Hbase conta rapidamente o número de linhas
No momento, eu implemento a contagem de linhas
Escrevendo saída para diferentes pastas hadoop
Eu quero escrever dois tipos diferentes de saída do mesmo redutor, em dois diretórios diferentes.Eu sou capaz de usar o recurso multipleoutputs no hadoop par...
Como funciona o algoritmo de classificação MapReduce?
Um dos principais exemplos usados para demonstrar o poder do MapReduce é aBenchmark da Terasort. Estou tendo problemas para entender os fundamentos do algo...