#deep-learning #regression #conv-neural-network #object-detection
#глубокое обучение #регрессия #conv-нейронная сеть #обнаружение объекта
Вопрос:
Я хотел бы выполнить задачу регрессии (найти положение объекта по x, y на некоторых изображениях размером примерно 150×70 пикселей). Поэтому у меня есть около 2000 аннотированных изображений (я могу аннотировать больше, возможно, до 20000). Моей первой мыслью было использовать CNN, но размер моих входных данных не соответствует, и я не хочу терять функции, изменяя размер или обрезая изображения. Что вы думаете? Есть ли лучший способ, чем использование CNN? Как мне справиться с этим изменением размеров изображений?
Ответ №1:
хорошо, вот в чем дело, если вы не хотите изменять масштаб или обрезать. тогда вы не сможете выполнить пакетную обработку.
вы можете масштабировать входное изображение до одного размера. просто убедитесь, что все ваши обучающие изображения имеют одинаковый размер, и аналогичные преобразования должны быть выполнены для вашей основной истины (привязанный блок).
Большая проблема: я не хочу применять преобразование к ограничительной рамке, и это сложно сделать?
Вот простая библиотека Albumentations, которая может сделать все это за вас. вам не нужно беспокоиться о математической библиотеке — https://github.com/albumentations-team/albumentations
Комментарии:
1. Спасибо вам за ваш ответ. Почему я не должен иметь возможности создавать пакеты для обучения своей сети? Я хочу найти центр объекта. Поэтому я хочу сделать регрессию по координатам x, y. Изображения уже увеличены и нормализованы (размер не изменен). Библиотека выглядит хорошо, спасибо за это.