Отключите репликацию только для вывода задания Hadoop

#hadoop

#hadoop

Вопрос:

Есть ли способ установить коэффициент репликации для вывода конкретного задания MapReduce таким, чтобы он отличался от коэффициента репликации для остальной части кластера (скажем, 1)? Я бы хотел, чтобы мой основной набор данных состоял из 3-кратных реплик (как сейчас), но выходные данные некоторых моих заданий быстро перемещаются из кластера и в конечном итоге выбрасываются, поэтому репликация не требуется, и я мог бы использовать свободное пространство.

Я мог бы использовать setrep, но я думаю, что смогу сделать это только постфактум.

Ответ №1:

При загрузке файла вы можете переопределить коэффициент репликации DFS по умолчанию, передав

 -D dfs.replication=1
  

Это должно также работать, когда передается при вызове задания.