¿Por qué no se implementa Hadoop usando MPI?

Question

Jan 04, 2011, 05:34 AM

tcp hadoop protocol-buffers mpi distributed-computing

¿Por qué no se implementa Hadoop usando MPI?

Corrígeme si me equivoco, pero entiendo que Hadoop no usa MPI para la comunicación entre diferentes nodos.

¿Cuáles son las razones técnicas para esto?

Podría hacer algunas conjeturas, pero no sé lo suficiente de cómo se implementa MPI "bajo el capó" para saber si tengo razón o no.

Ahora que lo pienso, tampoco estoy completamente familiarizado con las partes internas de Hadoop. Entiendo el marco de trabajo en un nivel conceptual (mapa / combinación / combinación / reducción y cómo funciona a un nivel alto) pero no conozco los detalles esenciales de la implementación. Siempre he asumido que Hadoop estaba transmitiendo estructuras de datos serializados (tal vezGPB) a través de una conexión TCP, por ejemplo, durante la fase aleatoria. Avísame si eso no es cierto.