Почему моя модель CNN переоснащена, и есть ли у кого-нибудь советы по улучшению результатов?

#validation #machine-learning

#проверка #машинное обучение

Вопрос:

Я обучаю многоканальную модель CNN с отсевом и ограничением веса для плотного слоя. Я использую два входных данных, поскольку пытаюсь классифицировать документ, используя его заголовок и аннотацию. Кроме того, я тренируюсь на наборе данных с избыточной выборкой, поскольку исходный набор данных несбалансирован. Исходный набор данных содержит около 3700 выборок, где 2% являются положительными. Я использую отсев фильтров 0.7, 100 и ядер conv 3, 4 и 5.

Модель

Изображение ниже — моя потеря. Зеленая линия — потеря обучения, а серая линия — потеря проверки. Кто-нибудь может объяснить, почему сначала увеличивается моя потеря проверки и почему две строки не объединяются? Кроме того, есть ли у кого-нибудь советы по получению лучших результатов?

Потеря модели

РЕДАКТИРОВАТЬ: если я опускаю или удаляю выпадение после слоев встраивания, потери при проверке сходятся. Почему это происходит?

Ответ №1:

Комментарии:

1. Я также использовал эти веб-сайты, но я не могу объяснить, почему мои потери при проверке увеличиваются в первую очередь и почему они не сходятся. Если я опускаю или удаляю выпадающее значение после слоев встраивания, потери при проверке сходятся. Почему это происходит?

2. Проблема с потерями при проверке всегда возникает, когда нет правильного распределения или разделения на поезд-тест. поэтому, пожалуйста, обязательно тренируйтесь с разделением 60-40, 70-30, а затем 80-20, что поможет постепенно получить хорошую подготовку с уменьшением потерь.

3. Я понимаю, что вы говорите. Но для статьи, с которой я сравниваю, мы используем разделение на 40-10-50 тестов на поезд, поскольку это больше подходит для реальной ситуации (разделение набора данных пополам). Может ли это быть причиной?