#training-data #named-entity-recognition
Вопрос:
При настройке модели распознавания именованных сущностей важно ли убедиться, что сущности, содержащиеся в ваших обучающих данных, не повторяются в ваших тестовых данных? Например, если у нас относительно небольшой набор данных и цель состоит в том, чтобы идентифицировать имена людей. Теперь предположим, что у нас есть 300 уникальных имен людей, но мы хотели бы обобщить наше извлечение на будущие данные, которые могут содержать имена людей, не входящих в 300 уникальных имен, которые у нас есть в наших данных. Важно ли убедиться, что при разделении данных на обучающие и тестовые наборы ни одно из 300 уникальных имен не будет найдено как в обучающем наборе, так и в тестовом наборе?
Ответ №1:
Важно, чтобы у вас были сущности, не включенные в набор обучения, чтобы проверить, что ваша модель обобщает, но обычно у вас должно быть достаточно данных и различных значений, чтобы при случайном разбиении вы получили приличное разбиение, даже не проверяя, чтобы это произошло.
Комментарии:
1. Да, именно это я и предполагал. Все книги, литература и примеры, которые я просмотрел, случайным образом разделяют данные без проверки. Однако их данные существенно больше, чем то, с чем я работаю. Спасибо вам за ваше понимание этого вопроса.