При выборе разделения теста поезда для обучения модели выбирает ли оно четное количество выборок из всего класса?

#python #tensorflow #machine-learning #testing #training-data

#python #тензорный поток #машинное обучение #тестирование #обучение-данные

Вопрос:

Допустим, у меня есть модель CNN для классификации рукописных чисел от 1 до 10. Я использую набор данных с 20 000 выборками и делаю разделение теста поезда на 50: 50.

Это оставляет мне 10 000 для обучения и тестирования. Будет ли он автоматически выбирать 1000 изображений из каждого класса для тестирования / обучения, или он будет приближать его?

Я пытаюсь решить аналогичную проблему (с разным количеством выборок и классов), но я заметил, что данные тестирования распределяются неравномерно. Например, тестируется 1010 единиц, но только 990 двоек.

Это нормально? Я не смог найти никакой документации, подтверждающей это. Мой набор данных достаточно велик, так что небольшое расхождение не имеет значения, но я все же хотел бы подтвердить.

Спасибо!

Ответ №1:

Загрузчик тестового поезда приблизит разделение, поскольку он использует выборку с заменой каждой эпохи для создания тестового пакета.

1. Спасибо за ответ. Знаете ли вы, можно ли указать, чтобы во время разделения использовалось четное число из каждого класса?

2. Один из способов сделать это — самостоятельно воспроизвести функциональность загрузчика данных в более детерминированную реализацию вместо случайной выборки

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Slackware 12 действительно медленный JDBC

совокупная сумма django postgresql

rails множественная входная запись