Resultados da pesquisa a pedido "hadoop"

7 a resposta

Por que o Hadoop não é implementado usando o MPI?

Corrija-me se estiver errado, mas meu entendimento é que o Hadoop não usa MPI para comunicação entre nós diferentes. Quais são as razões técnicas para isso? Eu poderia arriscar algumas suposições, mas não sei o suficiente sobre como o MPI é ...

3 a resposta

Compile o Apache Hadoop a partir da fonte no OS X em 2017

Até agora, eu peguei o repositório Git: https://github.com/apache/hadoopEstive procurando informações sobre como construir a partir do código-fonte, tentei este comando: mvn package -Pdist -Dtar -DskipTestsque resultou no seguinte erro: ...

2 a resposta

O que exatamente é a configuração do quorum do zookeeper no hbase-site.xml?

O que exatamente é a configuração do quorum do zookeeper no hbase-site.xml?

4 a resposta

Apache Spark: obtenha o número de registros por partição

Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...

2 a resposta

Como importo uma matriz de dados em linhas separadas em uma tabela de seção?

Estou tentando importar dados no seguinte formato para uma tabela de seção [ { "identifier" : "id#1", "dataA" : "dataA#1" }, { "identifier" : "id#2", "dataA" : "dataA#2" } ]Eu tenho vários arquivos como este e quero que cada {} forme uma linha ...

3 a resposta

Mapfile como uma entrada para um trabalho MapReduce

Recentemente, comecei a usar o Hadoop e tenho um problema ao usar um Mapfile como entrada para um trabalho MapReduce. O código de trabalho a seguir grava um MapFile simples chamado "TestMap" em hdfs, onde existem três chaves do tipo Texto e três ...

1 a resposta

Executando o zeppelin no modo de cluster spark

Estou usando este tutorialconjunto de faíscas no modo de fios no contêiner de estivador [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] para iniciar o zeppelin no cluster de faíscas no modo de fios. No ...

2 a resposta

Dataframe do Spark: Pivot e Grupo com base em colunas

Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...

2 a resposta

É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark?

É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark? Por exemplo, tenho milhares de faturas em pdf e quero ler os dados dessas e executar algumas análises sobre isso. Quais etapas devo executar ...

0 a resposta

Copie arquivos (config) do HDFS para o diretório de trabalho local de todos os executores spark

Eu estou procurando como copiar uma pasta com arquivos de dependências de recursos do HDFS para um diretório de trabalho local de cada executor de spark usando Java. Eu estava pensando em usar a opção --files FILES de envio de spark, mas ...