Отключите репликацию только для вывода задания Hadoop

#hadoop

Вопрос:

Есть ли способ установить коэффициент репликации для вывода конкретного задания MapReduce таким, чтобы он отличался от коэффициента репликации для остальной части кластера (скажем, 1)? Я бы хотел, чтобы мой основной набор данных состоял из 3-кратных реплик (как сейчас), но выходные данные некоторых моих заданий быстро перемещаются из кластера и в конечном итоге выбрасываются, поэтому репликация не требуется, и я мог бы использовать свободное пространство.

Я мог бы использовать setrep, но я думаю, что смогу сделать это только постфактум.

Ответ №1:

При загрузке файла вы можете переопределить коэффициент репликации DFS по умолчанию, передав

 -D dfs.replication=1

Это должно также работать, когда передается при вызове задания.

Вопрос:

Ответ №1:

Вам также может понравиться

Как написать правильное левое соединение двух таблиц?

Массовая вставка Sqlite со свежей транзакцией пакета

Сопоставление значений на основе соответствующих дат