Resultados da pesquisa a pedido "hadoop"
Parquet vs ORC vs ORC com Snappy
Estou executando alguns testes nos formatos de armazenamento disponíveis no Hive e usando o Parquet e o ORC como principais opções. Incluí o ORC uma vez com a compactação padrão e outra com o Snappy. Eu li muitos documentos que afirmam que o ...
Como gravar no HDFS usando o Scala
Estou aprendendo Scala e preciso gravar um arquivo personalizado no HDFS. Eu tenho meu próprio HDFS rodando em uma imagem Cloudera usando a fusão de vmware no meu laptop. Este é o meu código real: package org.glassfish.samples import ...
Fila de tarefas para a ação do Hive no oozie
Eu tenho um fluxo de trabalho oozie. Estou enviando todas as ações da seção com <name>mapred.job.queue.name</name> <value>${queueName}</value>Porém, para poucas ações de seção, o trabalho iniciado não está na fila especificada; é chamado na fila ...
Diferença entre a arquitetura típica do Hadoop e a arquitetura MapR
Eu sei dissoHadoop é baseado na arquitetura Master / Slave HDFS funciona comNameNodes eDataNodes eMapReduce funciona comjobtrackers eTasktrackers Mas não consigo encontrar todos esses serviços noMapR, Descubro que ele tem sua própria ...
Hadoop 1.2.1 - cluster multinode - A fase do redutor trava para o programa Wordcount?
Minha pergunta pode parecer redundante aqui, mas a solução para as perguntas anteriores foi ad-hoc. poucos eu tentei, mas ainda não tive sorte. Na verdade, estou trabalhando no hadoop-1.2.1 (no ubuntu 14), inicialmente tive configuração de nó ...
Comparação do Hadoop com RDBMS
Eu realmente não entendo o motivo real por trás do hadoop scaling melhor que o RDBMS. Alguém pode explicar em um nível granular? Isso tem algo a ver com estruturas de dados e algoritmos subjacentes
Como contar linhas em um arquivo no comando hdfs?
Eu tenho um arquivo no HDFS que quero saber quantas linhas existem. (arquivo de teste) No linux, eu posso fazer: wc -l <filename>Posso fazer algo semelhante com o comando "hadoop fs"? Posso imprimir o conteúdo do arquivo com: hadoop fs -text ...
O Spark não resistiria ao próprio RDD quando perceber que não será mais usado?
Podemos manter um RDD na memória e / ou disco quando queremos usá-lo mais de uma vez. No entanto, precisamos remover o anti-persistência posteriormente, ou o Spark faz algum tipo de coleta de lixo e remove o RDD quando não é mais necessário? ...
Como manter os arquivos de log do YARN?
De repente, meu cluster YARN parou de funcionar, tudo o que envio falhou com "Código de saída 1". Desejo rastrear esse problema, mas assim que um aplicativo falhou, o YARN exclui os arquivos de log. Qual é a configuração que preciso ajustar para ...
Por que o shell-spark falha com NullPointerException?
Eu tento executarspark-shell no Windows 10, mas continuo recebendo esse erro toda vez que o executo. Eu usei as versões mais recente e spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in ...