Распознавание именованных сущностей: Разделение данных на тестовые и обучающие наборы

#training-data #named-entity-recognition

Вопрос:

При настройке модели распознавания именованных сущностей важно ли убедиться, что сущности, содержащиеся в ваших обучающих данных, не повторяются в ваших тестовых данных? Например, если у нас относительно небольшой набор данных и цель состоит в том, чтобы идентифицировать имена людей. Теперь предположим, что у нас есть 300 уникальных имен людей, но мы хотели бы обобщить наше извлечение на будущие данные, которые могут содержать имена людей, не входящих в 300 уникальных имен, которые у нас есть в наших данных. Важно ли убедиться, что при разделении данных на обучающие и тестовые наборы ни одно из 300 уникальных имен не будет найдено как в обучающем наборе, так и в тестовом наборе?

Ответ №1:

Важно, чтобы у вас были сущности, не включенные в набор обучения, чтобы проверить, что ваша модель обобщает, но обычно у вас должно быть достаточно данных и различных значений, чтобы при случайном разбиении вы получили приличное разбиение, даже не проверяя, чтобы это произошло.

Комментарии:

1. Да, именно это я и предполагал. Все книги, литература и примеры, которые я просмотрел, случайным образом разделяют данные без проверки. Однако их данные существенно больше, чем то, с чем я работаю. Спасибо вам за ваше понимание этого вопроса.