#named-entity-recognition #edgar
#признание именованных юридических лиц #эдгар
Вопрос:
Спасибо за помощь. Я делаю некоторые пометки именованных объектов и наткнулся на несколько неоднозначных терминов. Я в основном следую рекомендациям по аннотированию CoNLL2003 и определению именованных объектов MUC-7 (другие рекомендации по аннотированию в основном разделяют ту же идею с этими рекомендациями)
https://www.clips.uantwerpen.be/conll2003/ner/
https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html
Для примера предложения «Я веду бизнес в Северной и Южной Америке», как я должен пометить «Северная и Южная Америка»? Вся фраза как один объект «Местоположение» или «Северная» и «Южная Америка» как два объекта «Местоположение»?
Я помечаю некоторые юридические отчеты (набор данных EDGAR от Комиссии по ценным бумагам и биржам США), поэтому я сталкиваюсь с такими фразами, как «Форма 10», «Форма 8-K», которые являются типами юридических форм для компаний США. Должны ли они рассматриваться как «Разные» именованные юридические лица?
В этих формах есть названия глав, такие как «Консолидированная финансовая отчетность», «Обсуждение и анализ руководства», должны ли они быть помечены как «Разное»?
Если да, то такие фразы, как «Годовой отчет», «Ежегодное собрание акционеров», «Обыкновенные акции», «Ограниченная акционерная единица», становятся довольно двусмысленными. Можно утверждать, что они являются названием типа «юридических документов» или названием типа «Финансовых инструментов». Но эти фразы каким-то образом являются общими и не указывают на один конкретный объект. Должны ли они быть «Разными» или «Вне именованной организации» (не именованной организации)?