#python #database #mongodb #duplicates
Вопрос:
мы будем создавать базу данных о людях для конкретной отрасли. Информация будет поступать из множества различных источников (в основном из веб-сайтов и общедоступных баз данных).
Не у каждого отдельного источника будет удобный уникальный идентификатор (например, налоговый идентификатор), поэтому мы ищем способы уменьшить количество дубликатов данных.
Мы думали о том, чтобы хэшировать электронную почту и имя человека и использовать это как своего рода уникальный ключ.
Любые методы/предложения, которые помогут нам уменьшить количество дубликатов, будут оценены по достоинству.
Мы будем использовать MongoDB и множество различных скриптов на python, если это полезно.
Ура!
Комментарии:
1. Хэширование все еще может создавать повторяющиеся значения, поэтому технически не будет работать как уникальные ключи.
2. Какие атрибуты будут у каждого экземпляра? рост, вес, пол, адрес электронной почты и т. Д.?
3. @rangeseeker он будет отличаться, у него почти всегда будет имя и контактная информация. Мы в основном поместим все, что найдем в каждом источнике данных, в документ do mongo, поэтому объем информации, которую мы получим, будет варьироваться в зависимости от записей.
4. Изначально я думал об использовании электронной почты в качестве уникального поля. Тем не менее, более чем в одном случае два или более людей совместно используют одно и то же электронное письмо в записи.
5. Типичные EMPI (Индекс пациента/человека для предприятия) используют комбинации атрибутов, чтобы определить, описывают ли две записи одного и того же человека. Каждое совпадающее поле имеет вес (иногда коэффициент расстояния редактирования), и минимальное количество общих полей определяется как пороговое значение для автоматического сопряжения. Возможно, вам захочется посмотреть, как эти инструменты выполняют свою магию.