Hadoop - большие файлы в распределенном кеше

Question

Jun 25, 2013, 09:16 AM

Hadoop - большие файлы в распределенном кеше

У меня есть файл размером 4 ГБ, который я пытаюсь открыть для всех картографов через распределенный кеш. Но я наблюдаю значительную задержку начала попытки задания карты. В частности, существует значительная задержка между временем отправки моей работы (через job.waitForCompletion ()) и временем запуска первой карты.

Я хотел бы знать, каков побочный эффект наличия больших файлов в DistributedCache. Сколько раз реплицируется файл в распределенном кэше? Влияет ли на это количество узлов в кластере?

(Мой кластер имеет около 13 узлов, работающих на очень мощных машинах, где каждая машина может разместить около 10 слотов карт.)

Спасибо

Hadoop - большие файлы в распределенном кеше

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Hadoop - большие файлы в распределенном кеше

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы