#hadoop
#hadoop
Вопрос:
Мы работаем с BigData, используя Hadoop my Virtual Box под управлением CentOS. всякий раз, когда мы выполняем некоторые программы, это создает 2 разных файла: 1) part-r-00000 и 2) part-m-00000. итак, в чем разница и как использовать эти два файла?
Ответ №1:
Выходные файлы по умолчанию имеют имена part-x-yyyyy
где:
1) x
является либо ‘m’
, либо ‘r
’, в зависимости от того, было ли задание только для карты, или уменьшить
2) yyyyy
является ли номерзадачи Mapper или Reducer (основанный на нуле (00000
))
Итак, если задание содержит 10 редукторов, сгенерированные файлы будут иметь имена от part-r-0000
0 до part-r-0000
9, по одному для каждой задачи редуктора.
Имя по умолчанию можно изменить.
Это все, что вам нужно сделать в классе драйвера, чтобы изменить значение выходного файла по умолчанию: job.getConfiguration().set(“mapreduce.output.basename”, “Neo”)
;
Таким образом, это приведет к вызову ваших файлов “Neo-r-00000”
.
Ответ №2:
Это файлы, созданные заданиями MapReduce. r
означает, что файл был выведен с помощью Reducer, m
означает, что файл был выведен с помощью Mapper.