Как Hadoop обрабатывает записи через границы блоков?

Question

Jan 12, 2013, 07:10 AM

Как Hadoop обрабатывает записи через границы блоков?

СогласноHadoop - The Definitive Guide

Логические записи, которые определяют FileInputFormats, обычно не вписываются в блоки HDFS. Например, TextInputFormat ’Логические записи - это линии, которые чаще, чем нет, пересекают границы HDFS. Это не имеет никакого отношения к функционированию вашей программы -линии не пропущены или разорваны, например:но это'Стоит знать об этом, так как это означает, что локальные карты данных (то есть карты, работающие на том же хосте, что и их входные данные) будут выполнять некоторые удаленные чтения. Небольшие накладные расходы, которые это вызывает, обычно не значительны.

Предположим, строка записи разделена на два блока (b1 и b2). Обработчик, обрабатывающий первый блок (b1), заметит, что последняя строка неt имеет разделитель EOL и извлекает оставшуюся часть строки из следующего блока данных (b2).

Как преобразователь, обрабатывающий второй блок (b2), определяет, что первая запись является неполной и должна обрабатываться, начиная со второй записи в блоке (b2)?

Как Hadoop обрабатывает записи через границы блоков?

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как Hadoop обрабатывает записи через границы блоков?

Ответы на вопрос(6)

Ваш ответ на вопрос

Популярные вопросы