Должны ли наборы тестов и разработчиков иметь распределение, отличное от набора для обучения и набора для разработки

#machine-learning #neural-network #deep-learning #conv-neural-network

#машинное обучение #нейронная сеть #глубокое обучение #conv-нейронная сеть

Вопрос:

Предположим, я создаю сеть для локализации объекта. Мои обучающие данные состоят из изображений, снятых в 5 разных местах, и это небольшой набор данных (в каждом месте около 2 тыс. изображений). Должен ли я добавить все изображения, перемешать их, а затем распределить их на обучение (60%), разработку (20%), тестирование (20%) или я должен брать данные из 3 местоположений в качестве обучения, 1 местоположение в качестве теста и 1 местоположение в качестве разработчика.

Ответ №1:

В идеале набор для обучения, набор тестов и набор проверки должны быть взяты из одного и того же дистрибутива, поэтому, исходя из этого, вы должны добавить все изображения, перемешать их, а затем распределить их на обучение (60%), разработку (20%), тестирование (20%).).). Также это помогло бы вашей сети быть более инвариантной к местоположению (поскольку она научилась бы игнорировать 5 местоположений против 3) и имела бы больше шансов на обобщение с добавленным разнообразием.