#python #tensorflow #machine-learning #testing #training-data
#python #тензорный поток #машинное обучение #тестирование #обучение-данные
Вопрос:
Допустим, у меня есть модель CNN для классификации рукописных чисел от 1 до 10. Я использую набор данных с 20 000 выборками и делаю разделение теста поезда на 50: 50.
Это оставляет мне 10 000 для обучения и тестирования. Будет ли он автоматически выбирать 1000 изображений из каждого класса для тестирования / обучения, или он будет приближать его?
Я пытаюсь решить аналогичную проблему (с разным количеством выборок и классов), но я заметил, что данные тестирования распределяются неравномерно. Например, тестируется 1010 единиц, но только 990 двоек.
Это нормально? Я не смог найти никакой документации, подтверждающей это. Мой набор данных достаточно велик, так что небольшое расхождение не имеет значения, но я все же хотел бы подтвердить.
Спасибо!
Ответ №1:
Загрузчик тестового поезда приблизит разделение, поскольку он использует выборку с заменой каждой эпохи для создания тестового пакета.
Комментарии:
1. Спасибо за ответ. Знаете ли вы, можно ли указать, чтобы во время разделения использовалось четное число из каждого класса?
2. Один из способов сделать это — самостоятельно воспроизвести функциональность загрузчика данных в более детерминированную реализацию вместо случайной выборки