Resultados da pesquisa a pedido "hadoop"
Por que o Hadoop não é implementado usando o MPI?
Corrija-me se estiver errado, mas meu entendimento é que o Hadoop não usa MPI para comunicação entre nós diferentes. Quais são as razões técnicas para isso? Eu poderia arriscar algumas suposições, mas não sei o suficiente sobre como o MPI é ...
Compile o Apache Hadoop a partir da fonte no OS X em 2017
Até agora, eu peguei o repositório Git: https://github.com/apache/hadoopEstive procurando informações sobre como construir a partir do código-fonte, tentei este comando: mvn package -Pdist -Dtar -DskipTestsque resultou no seguinte erro: ...
O que exatamente é a configuração do quorum do zookeeper no hbase-site.xml?
O que exatamente é a configuração do quorum do zookeeper no hbase-site.xml?
Apache Spark: obtenha o número de registros por partição
Quero verificar como podemos obter informações sobre cada partição, como o total não. de registros em cada partição no lado do driver quando o trabalho do Spark é enviado com o modo de implantação como um cluster de fios para registrar ...
Como importo uma matriz de dados em linhas separadas em uma tabela de seção?
Estou tentando importar dados no seguinte formato para uma tabela de seção [ { "identifier" : "id#1", "dataA" : "dataA#1" }, { "identifier" : "id#2", "dataA" : "dataA#2" } ]Eu tenho vários arquivos como este e quero que cada {} forme uma linha ...
Mapfile como uma entrada para um trabalho MapReduce
Recentemente, comecei a usar o Hadoop e tenho um problema ao usar um Mapfile como entrada para um trabalho MapReduce. O código de trabalho a seguir grava um MapFile simples chamado "TestMap" em hdfs, onde existem três chaves do tipo Texto e três ...
Executando o zeppelin no modo de cluster spark
Estou usando este tutorialconjunto de faíscas no modo de fios no contêiner de estivador [https://zeppelin.apache.org/docs/0.7.0/install/spark_cluster_mode.html#spark-on-yarn-mode] para iniciar o zeppelin no cluster de faíscas no modo de fios. No ...
Dataframe do Spark: Pivot e Grupo com base em colunas
Eu tenho o quadro de dados de entrada abaixo, com ID, aplicativo e cliente Dataframe de entrada +--------------------+-----+---------+ | id|app |customer | +--------------------+-----+---------+ |id1 | fw| WM | |id1 | fw| CS | |id2 | fw| CS | ...
É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark?
É possível ler arquivos pdf / áudio / vídeo (dados não estruturados) usando o Apache Spark? Por exemplo, tenho milhares de faturas em pdf e quero ler os dados dessas e executar algumas análises sobre isso. Quais etapas devo executar ...
Copie arquivos (config) do HDFS para o diretório de trabalho local de todos os executores spark
Eu estou procurando como copiar uma pasta com arquivos de dependências de recursos do HDFS para um diretório de trabalho local de cada executor de spark usando Java. Eu estava pensando em usar a opção --files FILES de envio de spark, mas ...