#deep-learning #computer-vision #object-detection #faster-rcnn
#глубокое обучение #компьютерное зрение #обнаружение объекта #быстрее-rcnn
Вопрос:
Я читаю код faster-rcnn и ssd для обнаружения объектов. Уровень прогнозирования использует фильтр 3×3 для прогнозирования положения блока и метки класса.
Почему бы не использовать фильтр 2×2, фильтр 4×4 или фильтр 5×5 для их прогнозирования?
Ответ №1:
Это просто выбор гиперпараметра. Такой выбор может быть сделан путем перекрестной проверки гиперпараметрического поиска, что означает обучение нескольких моделей с различными вариантами гиперпараметра и определение того, кто получил лучшую производительность в наборе проверки. В частности, для свертки 3×3 это стало популярным после публикации статьи VGG, в которой предполагалось, что объединение большого количества сверток 3×3 (что считается небольшим ядром) может обеспечить хорошую производительность.