Точная настройка NER для определения адреса

#python #database #named-entity-recognition

Вопрос:

Моя задача-найти секретные данные в текстовых документах. Есть три основных объекта, которые мне нужно найти: имена людей, названия организаций и адреса (абсолютно любые). Например:

 input: My name is John, I work at Google, my address is 1600 Amphitheatre Parkway. output: My name is [John](PERSON), I work at [Google](ORG), my address is [1600 Amphitheatre Parkway](ADDRESS).  

Хотя существует множество предварительно подготовленных моделей для имен, для адресов их нет. Поэтому я решил переобучить моделей с новой этикеткой: «адрес». Я сгенерировал адреса, используя библиотеку «Фейкер».

 for _ in range(10):  print(fake.street_address())  82274 Patel Wall Suite 899 702 Karen Square 311 Steven Canyon 857 Theresa Green 83697 Lisa Flat Apt. 381 7314 Morris Ranch Apt. 608 5675 David Path Apt. 909 7109 Pamela Keys 3026 Chan Locks 504 Sanchez Dale  

А также нашел базу данных адресов для разных стран ( openaddresses.io ). Но здесь я столкнулся с проблемой, адреса не имеют контекста. И для задачи NER контекст очень важен.

То есть для обучения я хотел бы иметь следующие данные:

 This building is located at 504 Sanchez Dale Peter, who lives at 3026 Chan Locks, often walks in the park.  

Вместо:

 3026 Chan Locks 504 Sanchez Dale  

Возможно, существуют аналогичные наборы данных, в которых есть адреса с контекстом? Или лучше каким-то образом создать контекст для адресов, которые у меня есть?