модель spacy не распознает названия улиц как объекты

#spacy

#spacy

Вопрос:

Я попробовал несколько моделей, и результаты следующие

en_core_web_sm 10030 W. Olivia Terrace ДАТА

en_core_web_md У. ФАКТ Оливии Террас

ru_core_web_lg 10030 КАРДИНАЛ У. Оливия Террас ПЕРСОНА

как я обучаю модель с сущностью распознавать улицы? Должен ли я использовать регулярные выражения для идентификации этих объектов?

Ответ №1:

Английские модели не обучены распознавать названия улиц. Список предварительно подготовленных меток NER можно найти на странице моделей:

 CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PERCENT, PERSON, PRODUCT, QUANTITY, TIME, WORK_OF_ART
  

Чтобы распознать новый тип сущности, вы можете следовать документации здесь: https://spacy.io/usage/training#example-new-entity-type . Вам нужно будет создать пользовательские обучающие данные и обновить модель, вызвав nlp.update аннотации золотого стандарта.

Если ваши сущности очень регулярные, возможно, можно просто использовать подход сопоставления с образцом. В этом случае вы можете ознакомиться с документами здесь: https://spacy.io/usage/rule-based-matching