Полная архитектура YOLO v3

#tensorflow #object-detection #yolo #tf.keras

#tensorflow #обнаружение объектов #yolo #tf.keras

Вопрос:

Я пытаюсь реализовать YOLO v3 в Tensorflow-Keras с нуля, с целью обучения моей собственной модели на пользовательском наборе данных. Под этим я подразумеваю отсутствие использования предварительно подготовленных весов. Я просмотрел все три статьи для YOLOv1, YOLOv2 (YOLO9000) и YOLOv3 и обнаружил, что, хотя Darknet53 используется в качестве средства извлечения функций для YOLOv3, я не могу указать на полную архитектуру, которая распространяется после этого — уровни «обнаружения», о которых здесь говорилось. После долгого чтения сообщений в блогах Medium, kdnuggets и других подобных сайтов у меня возникло несколько важных вопросов:

  • Я где-то пропустил полную архитектуру слоев обнаружения (которые расширяются после Darknet53, используемого для извлечения объектов) в документе YOLOv3?
  • Автор, похоже, использует разные размеры изображений на разных этапах обучения. Выполняет ли сеть автоматически это увеличение / уменьшение масштаба изображений?
  • Действительно ли для предварительной обработки изображений достаточно просто изменить их размер, а затем нормализовать его (разделив на 255)?

Пожалуйста, будьте достаточно любезны, чтобы указать мне правильное направление. Я ценю помощь!

Комментарии:

1. Это довольно широкое приложение и может быть закрыто. Возможно, вам больше повезет с datascience.stackexchange.com

2. @Stedy Ладно. Я буду иметь это в виду. Я уже публикую это на ai.stackexchange.com . Если у вас также есть какие-либо советы по этому вопросу, пожалуйста, поделитесь. Спасибо!

3. Это кажется довольно разумным. В то же время, возможно, было бы лучше разбить это на три отдельных вопроса

4. Да. Я подумал, может быть, каждый вопрос был достаточно большим, чтобы на него можно было ответить самостоятельно. Хороший момент.

5. Что касается номера 1, я согласен, нет очень подробного и полного объяснения архитектуры. Номер 2, Да, сеть автоматически изменяет размер изображения каждые 10 итераций, это вызвано random = 1 параметром в файле cfg. Номер 3, что вы имеете в виду? Вам нужно только предоставить изображение и соответствующую ограничивающую рамку