Методы уменьшения дублирования данных в базе данных людей

#python #database #mongodb #duplicates

Вопрос:

мы будем создавать базу данных о людях для конкретной отрасли. Информация будет поступать из множества различных источников (в основном из веб-сайтов и общедоступных баз данных).

Не у каждого отдельного источника будет удобный уникальный идентификатор (например, налоговый идентификатор), поэтому мы ищем способы уменьшить количество дубликатов данных.

Мы думали о том, чтобы хэшировать электронную почту и имя человека и использовать это как своего рода уникальный ключ.

Любые методы/предложения, которые помогут нам уменьшить количество дубликатов, будут оценены по достоинству.

Мы будем использовать MongoDB и множество различных скриптов на python, если это полезно.

Ура!

1. Хэширование все еще может создавать повторяющиеся значения, поэтому технически не будет работать как уникальные ключи.

2. Какие атрибуты будут у каждого экземпляра? рост, вес, пол, адрес электронной почты и т. Д.?

3. @rangeseeker он будет отличаться, у него почти всегда будет имя и контактная информация. Мы в основном поместим все, что найдем в каждом источнике данных, в документ do mongo, поэтому объем информации, которую мы получим, будет варьироваться в зависимости от записей.

4. Изначально я думал об использовании электронной почты в качестве уникального поля. Тем не менее, более чем в одном случае два или более людей совместно используют одно и то же электронное письмо в записи.

5. Типичные EMPI (Индекс пациента/человека для предприятия) используют комбинации атрибутов, чтобы определить, описывают ли две записи одного и того же человека. Каждое совпадающее поле имеет вес (иногда коэффициент расстояния редактирования), и минимальное количество общих полей определяется как пороговое значение для автоматического сопряжения. Возможно, вам захочется посмотреть, как эти инструменты выполняют свою магию.

Вопрос:

Комментарии:

Вам также может понравиться

Как я могу ограничить вывод запроса CakePHP?

Как мне изменить конфигурацию Yarn?

Как проверить, является ли пользовательское представление с текстом дочерним в родительском представлении?