При выборе разделения теста поезда для обучения модели выбирает ли оно четное количество выборок из всего класса?

#python #tensorflow #machine-learning #testing #training-data

#python #тензорный поток #машинное обучение #тестирование #обучение-данные

Вопрос:

Допустим, у меня есть модель CNN для классификации рукописных чисел от 1 до 10. Я использую набор данных с 20 000 выборками и делаю разделение теста поезда на 50: 50.

Это оставляет мне 10 000 для обучения и тестирования. Будет ли он автоматически выбирать 1000 изображений из каждого класса для тестирования / обучения, или он будет приближать его?

Я пытаюсь решить аналогичную проблему (с разным количеством выборок и классов), но я заметил, что данные тестирования распределяются неравномерно. Например, тестируется 1010 единиц, но только 990 двоек.

Это нормально? Я не смог найти никакой документации, подтверждающей это. Мой набор данных достаточно велик, так что небольшое расхождение не имеет значения, но я все же хотел бы подтвердить.

Спасибо!

Ответ №1:

Загрузчик тестового поезда приблизит разделение, поскольку он использует выборку с заменой каждой эпохи для создания тестового пакета.

Комментарии:

1. Спасибо за ответ. Знаете ли вы, можно ли указать, чтобы во время разделения использовалось четное число из каждого класса?

2. Один из способов сделать это — самостоятельно воспроизвести функциональность загрузчика данных в более детерминированную реализацию вместо случайной выборки