Resultados da pesquisa a pedido "hadoop"

1 a resposta

Como equilibrar meus dados entre as partições?

Editar: A resposta ajuda, mas descrevi minha solução em:problema memoryOverhead no Spark [https://gsamaras.wordpress.com/code/memoryoverhead-issue-in-spark/]. Eu tenho um RDD com partições 202092, que lê um conjunto de dados criado por outras ...

3 a resposta

o que deve ser considerado antes de escolher o hbase?

Sou muito novo no espaço de big data. Recebemos sugestões da equipe de que deveríamos usar o hbase em vez do RDBMS para obter alto desempenho. Não temos idéia do que deve / deve ser considerado antes de mudar o RDMS para o hbase. Alguma ideia?

1 a resposta

Como otimizar a digitalização de 1 arquivo / tabela enorme no Hive para confirmar / verificar se o ponto longo lat está contido em uma forma de geometria wkt

Atualmente, estou tentando associar cada ping long lat de um dispositivo ao seu CEP. Desnormalizei os dados de ping do dispositivo longo lat e criei uma tabela de junção de produto cruzado / produto cartesiano na qual cada linha possui ...

4 a resposta

Bibliotecas nativas do Hadoop não encontradas no OS / X

Eu baixeihadoop código-fonte do github e compilado com onative opção: mvn package -Pdist,native -DskipTests -Dtar -Dmaven.javadoc.skip=trueEu então copiei o.dylib arquivos para o $ HADOOP_HOME / lib cp ...

1 a resposta

Encaminhar valores ausentes no Spark / Python

Estou tentando preencher os valores ausentes no meu quadro de dados Spark com o valor não nulo anterior (se existir). Eu fiz esse tipo de coisa no Python / Pandas, mas meus dados são grandes demais para o Pandas (em um pequeno cluster) e eu sou o ...

3 a resposta

Consulta Hadoop sobre o método setJarByClass da classe Job

Na documentação da API do Hadoop, é fornecido este setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from.O que exatamente essa explicação significa? cria um arquivo JAR a partir do argumento ...

3 a resposta

Carregar dados no Hive com delimitador personalizado

Estou tentando criar uma tabela interna (gerenciada) na seção que pode armazenar meus dados de log incrementais. A tabela fica assim: CREATE TABLE logs (foo INT, bar STRING, created_date TIMESTAMP) ROW FORMAT DELIMITED FIELDS TERMINATED BY '<=>' ...

6 a resposta

Como executar um programa Hadoop?

Eu configurei o Hadoop no meu laptop e executei o programa de exemplo fornecido no guia de instalação com sucesso. Mas não consigo executar um programa. rohit@renaissance1:~/hadoop/ch2$ hadoop MaxTemperature input/ncdc/sample.txt output ...

1 a resposta

Para limitar o grande RDD

Estou lendo muitas imagens e gostaria de trabalhar em um pequeno subconjunto delas para desenvolvimento. Como resultado, estou tentando entender comofaísca [/questions/tagged/spark]ePitão [/questions/tagged/python]poderia fazer ...

4 a resposta

como implementar o cálculo de valor próprio com o MapReduce / Hadoop?

É possível porque o PageRank era uma forma de autovalor e foi por isso que o MapReduce foi introduzido. Mas parece haver problemas na implementação real, como todo computador escravo precisa manter uma cópia da matriz?