Hadoop - большие файлы в распределенном кеше
У меня есть файл размером 4 ГБ, который я пытаюсь открыть для всех картографов через распределенный кеш. Но я наблюдаю значительную задержку начала попытки задания карты. В частности, существует значительная задержка между временем отправки моей работы (через job.waitForCompletion ()) и временем запуска первой карты.
Я хотел бы знать, каков побочный эффект наличия больших файлов в DistributedCache. Сколько раз реплицируется файл в распределенном кэше? Влияет ли на это количество узлов в кластере?
(Мой кластер имеет около 13 узлов, работающих на очень мощных машинах, где каждая машина может разместить около 10 слотов карт.)
Спасибо