#machine-learning #keras #data-science #convolution #cross-validation
#машинное обучение #keras #наука о данных #свертка #перекрестная проверка
Вопрос:
Я разделил набор данных на обучение и тест в соотношении 80-20 соответственно. Я прогнозировал и оценивал с помощью тестового набора данных. И мой вопрос в том, можем ли мы оценить и спрогнозировать модель со всем набором данных, прежде чем я перетасую весь набор данных. Можем ли мы это сделать? Если нет, то почему мы не должны этого делать? что это за нарушение, подобное этому?
Ответ №1:
Отслеживание данных — это быстрый ответ на то, что вы ищете. Другими словами, ваша модель будет казаться превосходящей ваши тестовые данные, если сначала она была обучена на 100% данных. Модель станет усовершенствованной моделью, которая в основном будет предсказывать видимые данные с более высокой точностью, однако не сможет этого сделать с любыми невидимыми тестовыми данными.
Ответ №2:
Вы можете это сделать, однако это привело бы к переопределению модели. Вместо этого вы можете попробовать k-кратный метод перекрестной проверки.
Ответ №3:
Если вы используете весь набор данных для обучения, модель будет соответствовать всем отклонениям в данных (переобучение). В результате производительность вашей модели на аналогичных данных будет высокой. Однако модель будет демонстрировать низкую производительность на невидимых данных с другим распределением по сравнению с вашим обучающим набором данных. Один из способов предотвратить это — а) разделить ваши данные на наборы данных для обучения, проверки и тестирования (см. Примечание ниже), б) применить k-кратную перекрестную проверку при разделении обучения и проверки, в) проверить производительность ваших моделей с шага в при третьем разделении (тестовый набор данных). Примечание: Нет консенсуса по именованию разделений. Некоторые источники называют их обучение-проверка-тестирование, в то время как другие используют обучение-тестирование-проверка.