#named-entity-recognition #transfer-learning #spacy-3
Вопрос:
У меня есть набор данных, аннотированный пользовательской сущностью. Каждая точка данных представляет собой длинный текст (не одно предложение), возможно, с несколькими сущностями. Объем корпуса составляет около 1200 текстов. Этот корпус разделен на набор валидационных тестов для обучения следующим образом:
- набор поездов(~60% данных)
- набор проверки(~20% содержит некоторые экземпляры, которые отсутствуют в обучающем наборе для объекта)
- набор тестов(~20% содержит некоторые экземпляры, которые отсутствуют ни в наборе обучения, ни в наборе проверки для сущности). Я использую обучение передаче с предварительно обученной моделью en_core_web_sm. У меня также есть пользовательская функция для получения оценки точности-отзыва-f1 отдельно для невидимых экземпляров в наборе данных. (на основе get_ner_prf от spacy)
Когда я тренирую модель, значения точности , отзыва и оценки f1 достигают 1 для видимых экземпляров сущности в наборе проверки , но у нее очень плохой отзыв на невидимых экземплярах.
При прогнозах, сделанных в тестовом наборе, модель имеет очень низкую производительность, особенно в невидимых экземплярах (~0,55 отзыва и ~0,65 балла f1).
Существуют ли какие-либо рекомендации по повышению производительности модели (особенно для невидимых экземпляров) ?
Комментарии:
1. То же самое на форумах spaCy. github.com/explosion/spaCy/discussions/9283