Как Hadoop обрабатывает записи через границы блоков?

СогласноHadoop - The Definitive Guide

Логические записи, которые определяют FileInputFormats, обычно не вписываются в блоки HDFS. Например, TextInputFormat ’Логические записи - это линии, которые чаще, чем нет, пересекают границы HDFS. Это не имеет никакого отношения к функционированию вашей программы -линии не пропущены или разорваны, например:но это'Стоит знать об этом, так как это означает, что локальные карты данных (то есть карты, работающие на том же хосте, что и их входные данные) будут выполнять некоторые удаленные чтения. Небольшие накладные расходы, которые это вызывает, обычно не значительны.

Предположим, строка записи разделена на два блока (b1 и b2). Обработчик, обрабатывающий первый блок (b1), заметит, что последняя строка неt имеет разделитель EOL и извлекает оставшуюся часть строки из следующего блока данных (b2).

Как преобразователь, обрабатывающий второй блок (b2), определяет, что первая запись является неполной и должна обрабатываться, начиная со второй записи в блоке (b2)?

Ответы на вопрос(6)

Ваш ответ на вопрос