#r #obfuscation #privacy #survey
#r #запутывание #конфиденциальность #опрос
Вопрос:
предыстория
у меня есть некоторые личные данные опроса, которые содержат столбец конфиденциальной информации: географическое местоположение респондентов опроса. ни при каких обстоятельствах эта информация не может быть разглашена.
как это часто бывает при проведении опросов, чтобы пользователи могли правильно рассчитать отклонение в наборе данных моего опроса, этим пользователям потребуется либо это географическое местоположение (неприемлемо), либо, в качестве альтернативы, набор весов репликации. я могу создать этот набор повторяющихся весов; однако довольно легко посмотреть на корреляции между этими весами и вычислить, какие из респондентов опроса имеют одинаковое географическое местоположение. это также неприемлемо.
чтобы помочь мне с этим вопросом, вам не обязательно быть знакомым с replicate weights
— просто подумайте о них как о нескольких столбцах сильно коррелированных кластеризованных данных.
я понимаю, что если я хочу сохранить эту кластеризацию, у злого пользователя данных всегда будут полу-приличные догадки о том, кто разделяет географические местоположения; я просто хочу сделать эту игру в угадайку менее точной. при не запутанных весах репликации злонамеренный пользователь данных может вычислить 100% случаев.
запрос
я ищу метод, который
- не позволяет пользователям общедоступных файлов легко определять общее географическое местоположение из корреляций между моими переменными весов репликации
- не стирает корреляции между моими столбцами данных (переменные весов репликации)
- может быть реализован на
data.frame
объекте R без значительных временных затрат
я говорю общий доступ, потому что злой пользователь может не знать, где находится местоположение, но он может знать, что два респондента опроса из одного и того же местоположения — неприемлемая возможность.
что я пробовал
я действительно не хочу заново изобретать колесо здесь. я ищу синтаксис r, пакет r или что-нибудь еще, что было бы относительно просто реализовать. я нашел одну, две, три, четыре статьи, описывающие методы, которые все были бы подходящими для моих целей; к сожалению, ни один из авторов не пожелал поделиться фактическим кодом для их реализации.
я могу делать простые вещи, такие как добавление и вычитание случайных значений в мои столбцы replicate weights в соответствии с нормальным распределением, но я бы предпочел полагаться на работу кого-то, кто разбирается в вопросах конфиденциальности лучше, чем я.
Спасибо!!!!
Комментарии:
1. Попробуйте посмотреть на
sdcMicro
пакет2. Вы не можете. Более одного специалиста по обработке данных / гуру программного обеспечения показали, что легко извлечь личную идентификацию из предположительно анонимизированных больших массивов данных. Ваш выбор — либо, как вы отметили, оставить путь для восстановления геоданных, либо полностью удалить геоданные и выполнить анализ на основе какого-либо другого фактора.
3. бюро переписи населения США регулярно делает то, что я описываю, несмотря на свои собственные строгие правила конфиденциальности. давайте снизим планку и скажем: «Если это достаточно хорошо для переписи, это достаточно хорошо для меня». этим я определяю новый термин: WWCD? Спасибо
4. спасибо @James я никогда не слышал об этом раньше! я потратил некоторое время, пытаясь ответить на свой собственный вопрос с помощью этого инструментария. 🙂
Ответ №1:
я написал это девятиэтапное руководство, чтобы пройти через весь процесс в попытке ответить на свой собственный вопрос. я не эксперт в области конфиденциальности / конфиденциальности и хотел бы услышать отзывы как об этой идее, так и о других идеях. Спасибо!
http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html
Комментарии:
1. ссылка мертва 🙁
2. упс, извинения.. сообщение в блоге: usgsd.blogspot.com/2014/09 /… и код: github.com/ajdamico/asdfree/tree/archive/Confidentiality