Дифференциальная конфиденциальность


Дифференциальная конфиденциальность ( DP ) — это подход к обеспечению конфиденциальности при обмене информацией о группе людей путем описания закономерностей внутри группы при сокрытии информации о конкретных людях. [1] [2] Это делается путем внесения произвольных небольших изменений в отдельные данные, которые не меняют интересующую статистику. Таким образом, данные не могут быть использованы для того, чтобы сделать какие-либо выводы о каком-либо человеке.

Другой способ описать дифференциальную конфиденциальность — это ограничение на алгоритмы, используемые для публикации совокупной информации о статистической базе данных, которое ограничивает раскрытие частной информации записей в базе данных. Например, алгоритмы дифференциальной конфиденциальности используются некоторыми государственными учреждениями для публикации демографической информации или других статистических агрегатов, обеспечивая при этом конфиденциальность ответов на опросы, а также компаниями для сбора информации о поведении пользователей, контролируя при этом то, что видно даже внутренним аналитикам.

Грубо говоря, алгоритм является дифференциально конфиденциальным, если наблюдатель, видя его выходные данные, не может определить, использовалась ли в вычислениях информация конкретного человека. Дифференциальная конфиденциальность часто обсуждается в контексте идентификации лиц, информация которых может находиться в базе данных. Хотя это и не относится напрямую к атакам с идентификацией и повторной идентификацией, алгоритмы дифференциальной конфиденциальности, очевидно, противостоят таким атакам. [3]

На организации официальной статистики возлагается сбор информации от отдельных лиц или учреждений, а также публикация совокупных данных в интересах общества. Например, в ходе переписи населения США 1790 года была собрана информация о людях, живущих в Соединенных Штатах , и опубликованы таблицы с учетом пола, возраста, расы и условий подневольного состояния . [4] Первоначально записи переписи населения были опубликованы, но начиная с переписи 1840 года они собирались под обещанием конфиденциальности , что предоставленная информация будет использоваться в статистических целях, но что публикации не будут предоставлять информацию, которую можно было бы отследить до конкретного человека. физическое лицо или учреждение.

Для достижения цели конфиденциальности статистические организации долгое время скрывали информацию в своих публикациях. Например, в таблице, показывающей продажи каждого предприятия в городе, сгруппированные по категориям бизнеса, ячейку, содержащую информацию только об одной компании, можно скрыть, чтобы сохранить конфиденциальность конкретных продаж этой компании.

Внедрение систем электронной обработки информации статистическими агентствами в 1950-х и 1960-х годах резко увеличило количество таблиц, которые статистическая организация могла создавать, и тем самым значительно увеличила вероятность ненадлежащего раскрытия конфиденциальной информации. Например, если компания, у которой были скрыты данные о продажах, также имела эти цифры в общем объеме продаж региона, то можно было бы определить скрытое значение, вычитая другие продажи из этой суммы. Но также могут быть комбинации добавлений и исключений, которые могут привести к раскрытию частной информации. Количество комбинаций, которые необходимо проверить, увеличивается экспоненциально с увеличением количества публикаций и потенциально не ограничено, если пользователи данных могут делать запросы к статистической базе данных с помощью интерактивной системы запросов.