Согласно Hadoop - The Definitive Guide
Логические записи, которые определяет FileInputFormats, обычно не помещаются аккуратно в блоки HDFS. Например, логические записи TextInputFormat - это строки, которые чаще всего пересекают границы HDFS. Это не имеет никакого отношения к работе вашей программы - например, линии не пропущены и не разорваны - но об этом стоит знать, поскольку это означает, что локальные карты данных (то есть карты, работающие на том же хосте, что и их входные данные) выполнит некоторые удаленные чтения. Небольшие накладные расходы, которые это вызывает, обычно незначительны.
Предположим, что строка записи разделена на два блока (b1 и b2). Устройство отображения, обрабатывающее первый блок (b1), заметит, что последняя строка не имеет разделителя EOL, и извлечет оставшуюся часть строки из следующего блока данных (b2).
Как преобразователь, обрабатывающий второй блок (b2), определяет, что первая запись является неполной и должна обрабатывать, начиная со второй записи в блоке (b2)?
LineReader.readLine
функции, я не думаю, что это имеет отношение к вашему вопросу, но при необходимости могу добавить больше деталей.