Hadoop - Archivos grandes en caché distribuida

Question

Jun 25, 2013, 09:16 AM

Hadoop - Archivos grandes en caché distribuida

Tengo un archivo de 4 GB que intento compartir entre todos los asignadores a través de un caché distribuido. Pero estoy observando un retraso significativo en el inicio de intentos de tareas de mapa. Específicamente, hay un retraso significativo entre el momento en que envío mi trabajo (a través de job.waitForCompletion ()) y el momento en que comienza el primer mapa.

Me gustaría saber cuál es el efecto secundario de tener archivos grandes en un DistributedCache. ¿Cuántas veces se replica el archivo en un caché distribuido? ¿El número de nodos en un clúster tiene algún efecto en esto?

(Mi clúster tiene aproximadamente 13 nodos que se ejecutan en máquinas muy potentes donde cada máquina puede alojar cerca de 10 ranuras de mapa).

Gracias