Падает ли точность программы глубокого обучения, если я не ввожу форму ввода по умолчанию в предварительно подготовленную модель?

#python #keras #conv-neural-network #pre-trained-model #transfer-learning

#python #keras #conv-neural-network #предварительно обученная модель #передача-обучение

Вопрос:

Как следует из названия, я хочу знать, влияет ли форма входных данных на точность модели глубокого обучения.

Кроме того, можно ли использовать предварительно подготовленные модели (например, Xception) для изображений в оттенках серого?

P.S.: Я недавно начал изучать глубокое обучение, поэтому, если возможно, пожалуйста, объясните простыми словами.

Ответ №1:

Обычно при использовании сверточных нейронных сетей различия в форме изображения (ширина / высота изображения) не будут иметь значения. Однако различия в количестве каналов в изображении (эквивалентно глубине изображения) повлияют на производительность. На самом деле, обычно возникают ошибки несоответствия размеров, которые вы получаете, если модель была обучена для оттенков серого / цвета, а вы ввели другой тип.

Ответ №2:

Как правило, масштаб входных данных имеет значение. Переход на оттенки серого, безусловно, имеет значение. Детали зависят от данных обучения. То есть, если обучающие данные содержат объект с тем же масштабом, который вы используете, это может не иметь большого значения, если нет, то это имеет значение. Глубокое обучение в основном не является инвариантным к каким-либо изменениям в данных. CNN демонстрируют некоторую инвариантность к переводу, но не более того. Вращение, масштабирование, искажение цвета, яркость и т.д. все это отрицательно влияет на производительность — если эти условия не были частью тренировки.

Бумага https://arxiv.org/abs/2106.06057 опубликовано на IJCNN 2022 исследует классификатор повернутых и масштабированных изображений в простых наборах данных, таких как MNIST (цифры), и показывает, что производительность сильно ухудшается. Есть и другие документы, в которых показано то же самое.