Hadoop DFS репликации

Извините, ребята, просто простой вопрос, но я не могу найти точный вопрос в Google. Вопрос о том, что означает dfs.replication? Если я сделал один файл с именем filmdata.txt в hdfs, если я установил dfs.replication = 1, то будет ли это полностью один файл (один filmdata.txt)? Или, кроме основного файла (filmdata.txt), hasoop создаст другой файл репликации , коротко скажем: если установлено dfs.replication = 1, то есть полностью один filmdata.txt или два filmdata.txt? Заранее спасибо

Ответы на вопрос(4)

Решение Вопроса

как указано в коэффициенте dfs.replication. Итак, если вы установите dfs.replication = 1, то в файловой системе будет только одна копия файла.

ПроверитьApache Documentation для других параметров конфигурации.

Hadoop реплицирует данные.

Когда мы сохраняем файлы в HDFS, инфраструктура hadoop разделяет файл на наборы блоков (64 МБ или 128 МБ), а затем эти блоки будут реплицироваться на узлы кластера. Конфигурация dfs.replication должна указывать, сколько требуется репликации. ,

Значение по умолчанию для dfs.replication равно 3, но это настраивается в зависимости от настроек вашего кластера.

Надеюсь это поможет.

предоставленная Правином, теперь не работает. Вот обновленная ссылка, описывающая параметрdfs.replication.

обращатьсяНастройка кластера Hadoop, для получения дополнительной информации о параметрах конфигурации.

Вы можете заметить, что файлы могут занимать несколько блоков, и каждый блок будет реплицирован столько раз, сколько указано в dfs.replication (значение по умолчанию - 3). Размер таких блоков указывается в параметре dfs.block.size.

эти обычные машины не являются высокопроизводительными машинами, такими как серверы с большим объемом оперативной памяти, будет возможность потерять узлы данных (d1, d2, d3) или блок (b1). , b2, b3), в результате структура HDFS разделяет каждый блок данных (64 МБ, 128 МБ) на три репликации (по умолчанию), и каждый блок будет храниться в отдельных узлах данных (d1, d2, d3). Теперь рассмотрим, что блок (b1) поврежден в узле данных (d1), копия блока (b1) доступна также в узле данных (d2) и узле данных (d3), чтобы клиент мог запросить узел данных (d2). ) обрабатывать данные блока (b1) и предоставлять результат, как и в случае отказа узла данных (d2), клиент может запросить узел данных (d3) на обработку данных блока (b1). Это называется -dfs.replication середина.

Надеюсь, вы получили некоторую ясность.

Ваш ответ на вопрос