#image-processing #classification #feature-extraction #training-data
#обработка изображений #классификация #функция-извлечение #обучение-данные
Вопрос:
Таким образом, существует множество вариантов того, как можно извлечь функции HoG. Использование разных ориентаций, разного количества пикселей на ячейку и разных размеров блоков.
Но существует ли стандартная или оптимальная конфигурация? У меня есть обучающие изображения размером 50×100, и я выбираю 8 направлений ориентации. Я извлекаю функции из обучающих данных, чтобы выполнить классификацию транспортных средств. Но я действительно не знаю, что является «оптимальным».
Например, у меня здесь 2 конфигурации, есть ли какая-либо причина выбирать одну вместо другой? Лично я чувствую, что второй вариант — лучший выбор, но почему?
Ответ №1:
Я использовал HOG для распознавания продукта. Из того, что я понял в то время, вы указываете на реальную проблему стандартного HOG. Оптимальной конфигурации просто не существует, она зависит от набора данных. Если у вас есть оптимальные значения для вашего набора данных, а затем измените размер всех изображений в вашем наборе данных, вам также следует изменить размер ваших значений. Таким образом, для HOG не существует оптимальных значений «один размер подходит всем».
Но не все потеряно. Вместо этого вам следует использовать метод, который работает «все время». Идея состоит в том, чтобы сопоставить пространственные пирамиды. Это просто выполнение HOG в разных масштабах и объединение их вместе. Картинка стоит тысячи слов :
Вы можете видеть, что здесь уровень 2 — это просто стандартный HOG с мелкими ячейками. Но, возможно, это не лучший масштаб (потому что ячейки слишком малы, и вы просто наблюдаете шум) (с другой стороны, слишком большие ячейки, такие как уровень 0, могут быть слишком большими, и у вас везде будут одинаковые гистограммы). Вы можете вычислить наилучшие веса для каждого уровня при обучении вашего набора данных, и вы будете знать, каковы оптимальные значения, т.е. Какой размер ячейки наиболее релевантен
Комментарии:
1. Но для человека, имеющего опыт работы с функциями HoG, согласны ли вы также с тем, что нижнее изображение, которое я разместил, имеет лучший масштаб HoG, чем верхнее изображение?
2. По личному опыту, если изображение не очень маленькое, 8×8 пикселей на ячейку часто является хорошей конфигурацией. И ориентация 9 — вариант UoCTTI. П. Ф. Фельцензвалб, Р. Б. Гришик, Д. Макаллестер и Д. Раманан. Обнаружение объектов с помощью дискриминационно обученных моделей на основе деталей. PAMI, 2009.
3. что вы подразумеваете под «очень маленьким». Я предполагаю, что изображения размером 50×100 будут считаться не очень маленькими?
4. На мой взгляд, абсолютные размеры ячеек не имеют значения. Кроме того, я согласен, что нижнее изображение имеет лучший масштаб, потому что объекты, которые вы «видите», имеют масштаб ячейки (кривизна окна, кривизна колеса, дверные ручки и т. Д.) Или нескольких ячеек. Верхняя часть слишком мала, и вы наблюдаете много шума.
5. Когда вы говорите «Выполнять HOG в разных масштабах», я имею в виду, что это вопрос, верно? Как именно вы это делаете? Вы имеете в виду, что у вас есть фиксированный размер дескриптора HOG (например, ячейка 8×8, блоки 2×2, 128×64 пикселей для одного дескриптора HOG), а затем просто сделайте пирамиду на ИЗОБРАЖЕНИЯХ? Или вы имеете в виду, что вы сохраняете ИЗОБРАЖЕНИЕ того же размера, но каждый раз делаете меньший HOG?). Какая из них? Спасибо