#hadoop #mapreduce #hadoop-streaming
#hadoop #mapreduce #потоковая передача hadoop
Вопрос:
У меня есть картограф, объединитель и редуктор. Как я знаю, объединение происходит перед этапом перемешивания и сортировки. Но, в моем случае, выходные данные из mapper поступают отсортированными в объединитель.
hadoop jar hadoop_streeaming.jar
-input some_folder
-output some_folder
-mapper mapper.py
-combiner combine.py
-file mapper.py
-file combine.py
Я хочу, чтобы результаты от Mapper поступали в объединитель не отсортированными.
Например:
У меня есть этот текст:
mary
has
a
big
cat
этот текст поступает в объединитель в такой форме:
a
big
cat
has
mary
Но я не хочу, чтобы выходные данные были отсортированы до объединителя.
Комментарии:
1. Я думаю, вам нужно уточнить свой вопрос, не ясно, в чем проблема ?
2. Я добавил больше информации
3. Объединитель может запускаться более одного раза, он также может запускаться после фазы перемешивания и сортировки.
4. Почему вы не хотите, чтобы выходные данные mapper были отсортированы?