#hadoop #mapreduce
#hadoop #mapreduce
Вопрос:
Существует ли в программе Map Reduce верхний предел количества пар ключ-значение, которые могут быть созданы одним mapper?
Меня интересуют как Hadoop 1.x, так и 2.x. Я погуглил и не смог найти никаких ответов или вообще никаких упоминаний об этом.
Спасибо
Комментарии:
1. Я не думаю, что существует ограничение, отличное от количества пар ключ-значение, которые могут поместиться в вашем хранилище.
Ответ №1:
Количество пар ключ-значение, создаваемых одним mapper, не ограничено.
Mapper продолжает генерировать выходные данные, которые записываются в буфер. Размер этого буфера определяется конфигурацией mapreduce.task.io.sort.mb [По умолчанию: 256 МБ (CDH), 100 МБ (исходный код)].
Всякий раз, когда заполняемость буфера достигает mapreduce.map.sort.spill.percent [Def: 0.8] от емкости, содержимое буфера разливается (неблокирующий процесс) в файл разлива на локальном диске.