Resultados da pesquisa a pedido "hadoop"
Como equilibrar meus dados entre as partições?
Editar: A resposta ajuda, mas descrevi minha solução em:problema memoryOverhead no Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Eu tenho um RDD com partições 202092, que lê um conjunto de dados criado por outras ...
o que deve ser considerado antes de escolher o hbase?
Sou muito novo no espaço de big data. Recebemos sugestões da equipe de que deveríamos usar o hbase em vez do RDBMS para obter alto desempenho. Não temos idéia do que deve / deve ser considerado antes de mudar o RDMS para o hbase. Alguma ideia?
Como otimizar a digitalização de 1 arquivo / tabela enorme no Hive para confirmar / verificar se o ponto longo lat está contido em uma forma de geometria wkt
Atualmente, estou tentando associar cada ping long lat de um dispositivo ao seu CEP. Desnormalizei os dados de ping do dispositivo longo lat e criei uma tabela de junção de produto cruzado / produto cartesiano na qual cada linha possui ...
Bibliotecas nativas do Hadoop não encontradas no OS / X
Eu baixeihadoop código-fonte do github e compilado com onative opção: mvn package -Pdist,native -DskipTests -Dtar -Dmaven.javadoc.skip=trueEu então copiei o.dylib arquivos para o $ HADOOP_HOME / lib cp ...
Encaminhar valores ausentes no Spark / Python
Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...
Consulta Hadoop sobre o método setJarByClass da classe Job
Na documentação da API do Hadoop, é fornecido este setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.O que exatamente essa explicação significa? cria um arquivo JAR a partir do argumento ...
Carregar dados no Hive com delimitador personalizado
Estou tentando criar uma tabela interna (gerenciada) na seção que pode armazenar meus dados de log incrementais. A tabela fica assim: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS TERMINATED BY '<=>' ...
Como executar um programa Hadoop?
Eu configurei o Hadoop no meu laptop e executei o programa de exemplo fornecido no guia de instalação com sucesso. Mas não consigo executar um programa. rohit@renaissance1:~/hadoop/ch2$ hadoop MaxTemperature input/ncdc/sample.txt output ...
Para limitar o grande RDD
Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...
como implementar o cálculo de valor próprio com o MapReduce / Hadoop?
É possível porque o PageRank era uma forma de autovalor e foi por isso que o MapReduce foi introduzido. Mas parece haver problemas na implementação real, como todo computador escravo precisa manter uma cópia da matriz?