#r #transformation #privacy #confidentiality
#r #преобразование #конфиденциальность
Вопрос:
Я хочу поделиться набором данных (в основном данными временных рядов) с группой специалистов по обработке данных, чтобы изучить статистические взаимосвязи внутри данных (например, между переменными). Однако по соображениям конфиденциальности я не могу предоставить общий доступ к исходному набору данных, и поэтому мне было интересно, смогу ли я преобразовать данные с помощью некоторого случайного преобразования, которое я знаю, но которого не будут делать получатели. Это обычная практика? Существует ли связанный пакет R?
Я изучал использование синтетических наборов данных и посмотрел на ‘synthpop’, но у меня есть проблема, которая кажется немного другой. Например, я не обязательно хочу, чтобы данные включали вымышленных людей, которые напоминают исходный файл. Скорее я бы предпочел, чтобы значение, связанное с определенной переменной, было неясным (например, все еще числовым, но также бессмысленным) для обычного пользователя, но все же позволяло проводить статистический анализ (например, несмотря на то, что фактические значения неясны, отношения между переменными ‘x’ и ‘y’ остаются неизменными).
У меня такое чувство, что это, вероятно, довольно простой процесс (например, измените имена переменных, примените одно и то же преобразование ко всем переменным), но я не математик / статистик и поэтому я не хочу нарушать базовые отношения посредством ненадлежащего преобразования.
Спасибо!
Комментарии:
1. Похоже, что вы хотите сгенерировать случайные данные, которые имеют одинаковый статистический профиль. Опасность, конечно, заключается в том, что сгенерированные данные могут каким-то важным образом отличаться от оригинала. По той же причине сомнительно, что любое преобразование данных действительно сохраняет взаимосвязи. В лучшем случае это сохранит взаимосвязи, которые вы считаете важными, но, возможно, вы ошибаетесь в том, что действительно важно. В любом случае, это скорее методологический вопрос. Было бы лучше задать это при перекрестной проверке
2. Незнание точно, в чем проблема конфиденциальности, затрудняет это, поэтому, возможно, я упрощаю, но не могли бы вы просто изменить данные о дате, чтобы они были стандартизированной датой. Например, вы могли бы вычесть 1995-03-03 из всех дат. Данные о времени, которые они будут анализировать, будут количеством дней с даты, которую вы вычли. Отношения остались бы прежними, но у них не было бы временного контекста того, откуда поступили данные. Вы бы просто добавили 1995-03-03 к датам, чтобы вернуть их в ваш предыдущий набор данных. Вы также могли бы легко изменить имена переменных.
3. @Tanner33 это умная идея, но если безопасность действительно является проблемой, то это было бы тривиально для грубой силы. В более общем плане любое линейное преобразование просто добавило бы неясности, а не истинной безопасности данным, чего может быть достаточно для OP, но, возможно, и нет.
4. Спасибо, ребята, и задам вопрос о перекрестной проверке! Приносим извинения за использование не того форума! Полностью согласен, что это не было бы самой строгой защитой, но, вероятно, требовало бы достаточной маскировки, чтобы только очень преданный / опытный мог выяснить, каково истинное значение. @Tanner, это больше похоже на временные ряды, поскольку в нем множество физиологических переменных, собранных с течением времени, а не дата как таковая. Более того, фактические значения в каждый момент времени, которые важны и стремятся скрыть / преобразовать. Аналогично, даже скорость, с которой изменяются эти переменные. Спасибо за интерес / помощь! 🙂