Алгоритм обнаружения объектов с ошибками

#r

#r

Вопрос:

У меня есть список названий городов, которые пользователи вводят с ошибками в поле ввода текста, например (Chiqago, Neww jork или Niu yorc и т. Д.). Я хотел бы знать, может ли R решить проблему такого рода, которая получает плохо написанный город и преобразуется в правильное название города.

 Input city : Chiqago, Neww jork, Niu yorc, St Fransis
Output city: Chicago, New York, New York, San Francisco
 

Комментарии:

1. один быстрый способ, т. Е. Минимизировать расстояние махаланобиса (или аналогичное) в известном правильном «словаре», может помочь в простых случаях

Ответ №1:

Я рекомендую заглянуть в stringr пакет. Вы можете использовать str_detect , чтобы найти неправильный шаблон и str_replace / или str_replace_all заменить его правильным шаблоном.

https://cran.r-project.org/web/packages/stringr/vignettes/stringr.html