метод запутывания кластеризованных данных и сохранения конфиденциальности в r

#r #obfuscation #privacy #survey

#r #запутывание #конфиденциальность #опрос

Вопрос:

предыстория

у меня есть некоторые личные данные опроса, которые содержат столбец конфиденциальной информации: географическое местоположение респондентов опроса. ни при каких обстоятельствах эта информация не может быть разглашена.

как это часто бывает при проведении опросов, чтобы пользователи могли правильно рассчитать отклонение в наборе данных моего опроса, этим пользователям потребуется либо это географическое местоположение (неприемлемо), либо, в качестве альтернативы, набор весов репликации. я могу создать этот набор повторяющихся весов; однако довольно легко посмотреть на корреляции между этими весами и вычислить, какие из респондентов опроса имеют одинаковое географическое местоположение. это также неприемлемо.

чтобы помочь мне с этим вопросом, вам не обязательно быть знакомым с replicate weights — просто подумайте о них как о нескольких столбцах сильно коррелированных кластеризованных данных.

я понимаю, что если я хочу сохранить эту кластеризацию, у злого пользователя данных всегда будут полу-приличные догадки о том, кто разделяет географические местоположения; я просто хочу сделать эту игру в угадайку менее точной. при не запутанных весах репликации злонамеренный пользователь данных может вычислить 100% случаев.

запрос

я ищу метод, который

  • не позволяет пользователям общедоступных файлов легко определять общее географическое местоположение из корреляций между моими переменными весов репликации
  • не стирает корреляции между моими столбцами данных (переменные весов репликации)
  • может быть реализован на data.frame объекте R без значительных временных затрат

я говорю общий доступ, потому что злой пользователь может не знать, где находится местоположение, но он может знать, что два респондента опроса из одного и того же местоположения — неприемлемая возможность.

что я пробовал

я действительно не хочу заново изобретать колесо здесь. я ищу синтаксис r, пакет r или что-нибудь еще, что было бы относительно просто реализовать. я нашел одну, две, три, четыре статьи, описывающие методы, которые все были бы подходящими для моих целей; к сожалению, ни один из авторов не пожелал поделиться фактическим кодом для их реализации.

я могу делать простые вещи, такие как добавление и вычитание случайных значений в мои столбцы replicate weights в соответствии с нормальным распределением, но я бы предпочел полагаться на работу кого-то, кто разбирается в вопросах конфиденциальности лучше, чем я.

Спасибо!!!!

Комментарии:

1. Попробуйте посмотреть на sdcMicro пакет

2. Вы не можете. Более одного специалиста по обработке данных / гуру программного обеспечения показали, что легко извлечь личную идентификацию из предположительно анонимизированных больших массивов данных. Ваш выбор — либо, как вы отметили, оставить путь для восстановления геоданных, либо полностью удалить геоданные и выполнить анализ на основе какого-либо другого фактора.

3. бюро переписи населения США регулярно делает то, что я описываю, несмотря на свои собственные строгие правила конфиденциальности. давайте снизим планку и скажем: «Если это достаточно хорошо для переписи, это достаточно хорошо для меня». этим я определяю новый термин: WWCD? Спасибо

4. спасибо @James я никогда не слышал об этом раньше! я потратил некоторое время, пытаясь ответить на свой собственный вопрос с помощью этого инструментария. 🙂

Ответ №1:

я написал это девятиэтапное руководство, чтобы пройти через весь процесс в попытке ответить на свой собственный вопрос. я не эксперт в области конфиденциальности / конфиденциальности и хотел бы услышать отзывы как об этой идее, так и о других идеях. Спасибо!

http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html

Комментарии:

1. ссылка мертва 🙁

2. упс, извинения.. сообщение в блоге: usgsd.blogspot.com/2014/09 /… и код: github.com/ajdamico/asdfree/tree/archive/Confidentiality