метод запутывания кластеризованных данных и сохранения конфиденциальности в r

ProgramBox

метод запутывания кластеризованных данных и сохранения конфиденциальности в r

Post author:admin
Запись опубликована:4 марта, 2023
Post category:Вопросы по программированию

#r #obfuscation #privacy #survey

#r #запутывание #конфиденциальность #опрос

Вопрос:

предыстория

у меня есть некоторые личные данные опроса, которые содержат столбец конфиденциальной информации: географическое местоположение респондентов опроса. ни при каких обстоятельствах эта информация не может быть разглашена.

как это часто бывает при проведении опросов, чтобы пользователи могли правильно рассчитать отклонение в наборе данных моего опроса, этим пользователям потребуется либо это географическое местоположение (неприемлемо), либо, в качестве альтернативы, набор весов репликации. я могу создать этот набор повторяющихся весов; однако довольно легко посмотреть на корреляции между этими весами и вычислить, какие из респондентов опроса имеют одинаковое географическое местоположение. это также неприемлемо.

чтобы помочь мне с этим вопросом, вам не обязательно быть знакомым с replicate weights — просто подумайте о них как о нескольких столбцах сильно коррелированных кластеризованных данных.

я понимаю, что если я хочу сохранить эту кластеризацию, у злого пользователя данных всегда будут полу-приличные догадки о том, кто разделяет географические местоположения; я просто хочу сделать эту игру в угадайку менее точной. при не запутанных весах репликации злонамеренный пользователь данных может вычислить 100% случаев.

запрос

я ищу метод, который

не позволяет пользователям общедоступных файлов легко определять общее географическое местоположение из корреляций между моими переменными весов репликации
не стирает корреляции между моими столбцами данных (переменные весов репликации)
может быть реализован на data.frame объекте R без значительных временных затрат

я говорю общий доступ, потому что злой пользователь может не знать, где находится местоположение, но он может знать, что два респондента опроса из одного и того же местоположения — неприемлемая возможность.

что я пробовал

я действительно не хочу заново изобретать колесо здесь. я ищу синтаксис r, пакет r или что-нибудь еще, что было бы относительно просто реализовать. я нашел одну, две, три, четыре статьи, описывающие методы, которые все были бы подходящими для моих целей; к сожалению, ни один из авторов не пожелал поделиться фактическим кодом для их реализации.

я могу делать простые вещи, такие как добавление и вычитание случайных значений в мои столбцы replicate weights в соответствии с нормальным распределением, но я бы предпочел полагаться на работу кого-то, кто разбирается в вопросах конфиденциальности лучше, чем я.

Спасибо!!!!

1. Попробуйте посмотреть на sdcMicro пакет

2. Вы не можете. Более одного специалиста по обработке данных / гуру программного обеспечения показали, что легко извлечь личную идентификацию из предположительно анонимизированных больших массивов данных. Ваш выбор — либо, как вы отметили, оставить путь для восстановления геоданных, либо полностью удалить геоданные и выполнить анализ на основе какого-либо другого фактора.

3. бюро переписи населения США регулярно делает то, что я описываю, несмотря на свои собственные строгие правила конфиденциальности. давайте снизим планку и скажем: «Если это достаточно хорошо для переписи, это достаточно хорошо для меня». этим я определяю новый термин: WWCD? Спасибо

4. спасибо @James я никогда не слышал об этом раньше! я потратил некоторое время, пытаясь ответить на свой собственный вопрос с помощью этого инструментария. 🙂

Ответ №1:

я написал это девятиэтапное руководство, чтобы пройти через весь процесс в попытке ответить на свой собственный вопрос. я не эксперт в области конфиденциальности / конфиденциальности и хотел бы услышать отзывы как об этой идее, так и о других идеях. Спасибо!

http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html