#tensorflow #object-detection #yolo #tf.keras
#tensorflow #обнаружение объектов #yolo #tf.keras
Вопрос:
Я пытаюсь реализовать YOLO v3 в Tensorflow-Keras с нуля, с целью обучения моей собственной модели на пользовательском наборе данных. Под этим я подразумеваю отсутствие использования предварительно подготовленных весов. Я просмотрел все три статьи для YOLOv1, YOLOv2 (YOLO9000) и YOLOv3 и обнаружил, что, хотя Darknet53 используется в качестве средства извлечения функций для YOLOv3, я не могу указать на полную архитектуру, которая распространяется после этого — уровни «обнаружения», о которых здесь говорилось. После долгого чтения сообщений в блогах Medium, kdnuggets и других подобных сайтов у меня возникло несколько важных вопросов:
- Я где-то пропустил полную архитектуру слоев обнаружения (которые расширяются после Darknet53, используемого для извлечения объектов) в документе YOLOv3?
- Автор, похоже, использует разные размеры изображений на разных этапах обучения. Выполняет ли сеть автоматически это увеличение / уменьшение масштаба изображений?
- Действительно ли для предварительной обработки изображений достаточно просто изменить их размер, а затем нормализовать его (разделив на 255)?
Пожалуйста, будьте достаточно любезны, чтобы указать мне правильное направление. Я ценю помощь!
Комментарии:
1. Это довольно широкое приложение и может быть закрыто. Возможно, вам больше повезет с datascience.stackexchange.com
2. @Stedy Ладно. Я буду иметь это в виду. Я уже публикую это на ai.stackexchange.com . Если у вас также есть какие-либо советы по этому вопросу, пожалуйста, поделитесь. Спасибо!
3. Это кажется довольно разумным. В то же время, возможно, было бы лучше разбить это на три отдельных вопроса
4. Да. Я подумал, может быть, каждый вопрос был достаточно большим, чтобы на него можно было ответить самостоятельно. Хороший момент.
5. Что касается номера 1, я согласен, нет очень подробного и полного объяснения архитектуры. Номер 2, Да, сеть автоматически изменяет размер изображения каждые 10 итераций, это вызвано
random = 1
параметром в файле cfg. Номер 3, что вы имеете в виду? Вам нужно только предоставить изображение и соответствующую ограничивающую рамку