Почему быстрее-rcnn ssd использует фильтр 3×3 для прогнозирования положения блока и метки класса?

#deep-learning #computer-vision #object-detection #faster-rcnn

#глубокое обучение #компьютерное зрение #обнаружение объекта #быстрее-rcnn

Вопрос:

Я читаю код faster-rcnn и ssd для обнаружения объектов. Уровень прогнозирования использует фильтр 3×3 для прогнозирования положения блока и метки класса.

Почему бы не использовать фильтр 2×2, фильтр 4×4 или фильтр 5×5 для их прогнозирования?

введите описание изображения здесь

Ответ №1:

Это просто выбор гиперпараметра. Такой выбор может быть сделан путем перекрестной проверки гиперпараметрического поиска, что означает обучение нескольких моделей с различными вариантами гиперпараметра и определение того, кто получил лучшую производительность в наборе проверки. В частности, для свертки 3×3 это стало популярным после публикации статьи VGG, в которой предполагалось, что объединение большого количества сверток 3×3 (что считается небольшим ядром) может обеспечить хорошую производительность.