Hadoop - большие файлы в распределенном кеше

У меня есть файл размером 4 ГБ, который я пытаюсь открыть для всех картографов через распределенный кеш. Но я наблюдаю значительную задержку начала попытки задания карты. В частности, существует значительная задержка между временем отправки моей работы (через job.waitForCompletion ()) и временем запуска первой карты.

Я хотел бы знать, каков побочный эффект наличия больших файлов в DistributedCache. Сколько раз реплицируется файл в распределенном кэше? Влияет ли на это количество узлов в кластере?

(Мой кластер имеет около 13 узлов, работающих на очень мощных машинах, где каждая машина может разместить около 10 слотов карт.)

Спасибо

Ответы на вопрос(1)

Ваш ответ на вопрос