Гистограмма ориентированных градиентов в многомасштабном режиме (средний сдвиг?)

#image-processing #computer-vision #object-detection

#обработка изображений #компьютерное зрение #обнаружение объекта

Вопрос:

Я работаю над дескрипторами HOG, и я в значительной степени закончил с большинством частей, за исключением объединения окон обнаружения.

Что я сделал до сих пор, так это то, что я строю масштабную пространственную пирамиду изображения и для каждого изображения в каждом масштабе я перемещаю окно обнаружения (64×128) и обнаруживаю людей. На каждом изображении человек обнаруживается более чем в одном окне.

Итак, вопрос в том, как объединить все эти окна (предположим, для одного человека) в одно окно. Далал предполагает, что следует использовать надежный алгоритм обнаружения мод, такой как среднее смещение. Но у меня есть несколько масштабов… Должен ли я сначала оценить истинное местоположение окна обнаружения, найденного на более низких уровнях масштабного пространства, чтобы сделать это?

Приветствуется любая помощь. Заранее спасибо.

Ответ №1:

Моя интерпретация заключается в том, что средний сдвиг фактически даст вам то, что вы предлагаете.

По сути, сначала вы оцениваете распределение вероятностей местоположения человека в самом грубом масштабе на основе сильных выходных данных детектора. Это дает вам надежную оценку режима.

Затем вы можете итеративно уточнить, используя более мелкие масштабы вокруг максимума или режима.

Идея очень похожа на ту, что использовалась, например, в пирамидальном LK-трекинге. Вы также можете выполнять обработку ансамбля и / или фильтры частиц.