В чем разница между файлами part-r-00000 и part-m-00000 в Hadoop?

#hadoop

Вопрос:

Мы работаем с BigData, используя Hadoop my Virtual Box под управлением CentOS. всякий раз, когда мы выполняем некоторые программы, это создает 2 разных файла: 1) part-r-00000 и 2) part-m-00000. итак, в чем разница и как использовать эти два файла?

Ответ №1:

Выходные файлы по умолчанию имеют имена part-x-yyyyy

где:

1) x является либо ‘m’ , либо ‘r ’, в зависимости от того, было ли задание только для карты, или уменьшить

2) yyyyy является ли номерзадачи Mapper или Reducer (основанный на нуле (00000 ))

Итак, если задание содержит 10 редукторов, сгенерированные файлы будут иметь имена от part-r-0000 0 до part-r-0000 9, по одному для каждой задачи редуктора.

Имя по умолчанию можно изменить.

Это все, что вам нужно сделать в классе драйвера, чтобы изменить значение выходного файла по умолчанию: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”) ;

Таким образом, это приведет к вызову ваших файлов “Neo-r-00000” .

Ответ №2:

Это файлы, созданные заданиями MapReduce. r означает, что файл был выведен с помощью Reducer, m означает, что файл был выведен с помощью Mapper.

Вопрос:

Ответ №1:

Ответ №2:

Вам также может понравиться

Таблицы и табличные переменные

Сохранение и восстановление положения аудиопроигрывателя с помощью Flutter

как устранить ошибку UnicodeDecode из sys.stdin в python для?