#hadoop
#hadoop
Вопрос:
Есть ли способ установить коэффициент репликации для вывода конкретного задания MapReduce таким, чтобы он отличался от коэффициента репликации для остальной части кластера (скажем, 1)? Я бы хотел, чтобы мой основной набор данных состоял из 3-кратных реплик (как сейчас), но выходные данные некоторых моих заданий быстро перемещаются из кластера и в конечном итоге выбрасываются, поэтому репликация не требуется, и я мог бы использовать свободное пространство.
Я мог бы использовать setrep, но я думаю, что смогу сделать это только постфактум.
Ответ №1:
При загрузке файла вы можете переопределить коэффициент репликации DFS по умолчанию, передав
-D dfs.replication=1
Это должно также работать, когда передается при вызове задания.