Перетасовка и сортировка после объединения

#hadoop #mapreduce #hadoop-streaming

#hadoop #mapreduce #потоковая передача hadoop

Вопрос:

У меня есть картограф, объединитель и редуктор. Как я знаю, объединение происходит перед этапом перемешивания и сортировки. Но, в моем случае, выходные данные из mapper поступают отсортированными в объединитель.

 hadoop jar hadoop_streeaming.jar 
        -input some_folder 
        -output some_folder 
        -mapper mapper.py 
        -combiner combine.py 
        -file mapper.py 
        -file combine.py
  

Я хочу, чтобы результаты от Mapper поступали в объединитель не отсортированными.

Например:

У меня есть этот текст:

 mary
has
a
big
cat
  

этот текст поступает в объединитель в такой форме:

 a
big
cat
has
mary
  

Но я не хочу, чтобы выходные данные были отсортированы до объединителя.

Комментарии:

1. Я думаю, вам нужно уточнить свой вопрос, не ясно, в чем проблема ?

2. Я добавил больше информации

3. Объединитель может запускаться более одного раза, он также может запускаться после фазы перемешивания и сортировки.

4. Почему вы не хотите, чтобы выходные данные mapper были отсортированы?