Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
В то время как человека обычно легко идентифицировать по фотографии, сделанной непосредственно с ним, задача идентифицировать его на основе ограниченных данных сложнее, но иногда возможно.

Деидентификация - это процесс, используемый для предотвращения раскрытия чьей-либо личности . Например, данные, полученные в ходе исследования на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть деидентифицированы в соответствии с правилами HIPAA, которые определяют и предусматривают законы о конфиденциальности пациентов. [1]

Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешная повторная идентификация [2] [3] [4] [5]поставить под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают мелкомасштабные исследования данных, которые не были деидентифицированы в соответствии с существующими стандартами». [6]

Деидентификация считается одним из основных подходов к защите конфиденциальности данных . Он обычно используется в областях связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видеонаблюдения. [7]

Примеры [ править ]

При разработке опросов [ править ]

Для сбора информации о группе людей проводится обследование, например перепись . Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спроектировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальный ответ (-и) участника с любыми опубликованными данными.

Перед использованием информации [ править ]

Когда веб-сайт онлайн-покупок хочет знать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные клиентов из своей базы данных и провести их анализ. Информация о личных данных включает личные идентификаторы, которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайт должен предварительно обработать данные с помощью методов деидентификации перед анализом записей данных, чтобы избежать нарушения конфиденциальности своих клиентов. 

Анонимизация [ править ]

Анонимизация относится к необратимому отделению набора данных от личности автора данных в исследовании, чтобы предотвратить любую повторную идентификацию в будущем даже организаторами исследования при любых условиях. [8] [9] Деидентификация также может включать в себя сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. [8] [9] [10] В технологическом сообществе ведутся споры о том, следует ли считать данные, которые могут быть повторно связаны даже доверенной стороной, деидентификацией.

Методы [ править ]

Распространенными стратегиями деидентификации являются маскирование личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация - это основной метод, используемый для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .

Псевдонимизация [ править ]

Псевдонимизация выполняется путем замены реальных имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать индивидуальную запись с течением времени, даже если запись будет обновляться. Однако это не может предотвратить идентификацию человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. [11]

k-анонимизация [ править ]

к-анонимную определяет атрибуты, косвенно указывает на идентичность индивида как квази-идентификаторов (QIS) и сделки с данными, делая при наименьших K индивидуумы имеют одинаковую комбинацию значений QI. [11] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также предотвращает уничтожение записей данных.

Приложения [ править ]

Исследования по деидентификации проводятся в основном для защиты информации о здоровье . [12] Некоторые библиотеки переняли методы, используемые в отрасли здравоохранения, чтобы сохранить конфиденциальность своих читателей. [12]

В больших данных деидентификация широко применяется отдельными лицами и организациями. [7] С развитием социальных сетей, электронной коммерции и больших данных деидентификация иногда требуется и часто используется для обеспечения конфиденциальности данных, когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для своих личное использование.

В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, рабочих и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики могут собирать информацию без согласия. [13]

Лимиты [ править ]

Каждый раз, когда человек участвует в генетических исследованиях, дарение биологического образца часто приводит к созданию большого количества персональных данных. Такие данные однозначно сложно деидентифицировать. [14]

Анонимизация генетических данных особенно трудна из-за огромного количества генотипической информации в биологических образцах [14], связи, которую образцы часто имеют с историей болезни, [15] и появления современных инструментов биоинформатики для интеллектуального анализа данных . [15] Были демонстрации того, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. [16]

Некоторые исследователи предположили, что неразумно когда-либо обещать участникам генетических исследований, что они могут сохранить свою анонимность, но вместо этого таких участников следует научить ограничениям использования кодированных идентификаторов в процессе деидентификации. [9]

Законы США об отказе от идентификации [ править ]

В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной меры предосторожности», но не «полезной основой для политики», поскольку «она не является надежной против повторной идентификации в ближайшем будущем. методы ". [17]

HIPAA Правило конфиденциальности предоставляет механизмы для использования и раскрытия данных о состоянии здоровья ответственно без необходимости получения согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA - Safe Harbor и Expert Determination Method. Safe Harbor полагается на удаление определенных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. Д.), В то время как метод экспертного определения требует знания и опыта в отношении общепринятых статистических и научных принципов и методов, позволяющих сделать информацию, не идентифицируемую индивидуально. [18]

Безопасная гавань [ править ]

Метод безопасной гавани использует метод списков для деидентификации и имеет два требования:

  1. Удаление или обобщение 18 элементов из данных.
  2. Охватываемая организация или деловой партнер не имеет фактических сведений о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации человека. Safe Harbor - это строго предписывающий подход к деидентификации. Согласно этому методу все даты должны быть обобщены до года, а почтовые индексы должны быть сокращены до трех цифр. Тот же подход используется для данных независимо от контекста. Эта информация не может быть предоставлена ​​даже в том случае, если информация должна быть передана проверенному исследователю, который желает проанализировать данные о сезонных изменениях в острых респираторных случаях и, следовательно, требует месяца госпитализации; будет сохранен только год поступления.

Определение эксперта [ править ]

Expert Determination использует подход к деидентификации, основанный на оценке риска, который применяет действующие стандарты и передовой опыт исследования для определения вероятности того, что человек может быть идентифицирован на основе его защищенной медицинской информации . Этот метод требует, чтобы лицо, обладающее соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставляло информацию, не поддающуюся индивидуальной идентификации. Это требует:

  1. Очень мал риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
  2. Документирует методы и результаты анализа, которые подтверждают такое определение.

Исследование потомков [ править ]

Ключевым законом об исследованиях данных электронных медицинских карт является Правило конфиденциальности HIPAA . Этот закон разрешает использование электронных медицинских карт умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512 (i) (1) (iii))). [19]

См. Также [ править ]

  • Генетическая конфиденциальность
  • Статистический контроль раскрытия информации

Ссылки [ править ]

  1. ^ Права (OCR), Управление по гражданским делам (2012-09-07). «Методы деидентификации PHI» . HHS.gov . Проверено 8 ноября 2020 .
  2. ^ Суини, Л. (2000). «Простая демография часто однозначно идентифицирует людей». Рабочий документ о конфиденциальности данных . 3 .
  3. ^ de Montjoye, Y.-A. (2013). «Уникальный в толпе: границы личной мобильности» . Научные отчеты . 3 : 1376. Bibcode : 2013NatSR ... 3E1376D . DOI : 10.1038 / srep01376 . PMC 3607247 . PMID 23524645 .  
  4. ^ de Montjoye, Y.-A .; Radaelli, L .; Сингх, ВК; Пентланд, AS (29 января 2015 г.). «Уникальный в торговом центре: повторная идентификация метаданных кредитной карты» . Наука . 347 (6221): 536–539. Bibcode : 2015Sci ... 347..536D . DOI : 10.1126 / science.1256297 . PMID 25635097 . 
  5. Перейти ↑ Narayanan, A. (2006). «Как нарушить анонимность набора данных о призах netflix». arXiv : cs / 0610105 .
  6. ^ El Эмама Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье» . PLOS ONE . 10 (4): e28071. Bibcode : 2011PLoSO ... 628071E . DOI : 10.1371 / journal.pone.0028071 . PMC 3229505 . PMID 22164229 .  
  7. ^ a b Рибарич, Слободан; Ariyaeeinia, Аладдин; Павешич, Никола (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: обзор» . Обработка сигналов: передача изображений . 47 : 131–151. DOI : 10.1016 / j.image.2016.05.020 .
  8. ^ a b Godard, BA; Шмидтке-младший; Кассиман, JJ; Эйме, SGN (2003). «Хранение данных и банкинг ДНК для биомедицинских исследований: информированное согласие, конфиденциальность, вопросы качества, право собственности, возврат пособий. Профессиональная перспектива» . Европейский журнал генетики человека . 11 : S88–122. DOI : 10.1038 / sj.ejhg.5201114 . PMID 14718939 . 
  9. ^ a b c Фуллертон, С.М. Андерсон, штат Северная Каролина; Гузаускас, Г .; Freeman, D .; Фрайер-Эдвардс, К. (2010). «Решение задач управления исследованиями биорепозитория нового поколения» . Трансляционная медицина науки . 2 (15): 15 см3. DOI : 10.1126 / scitranslmed.3000361 . PMC 3038212 . PMID 20371468 .  
  10. ^ Макмерри, AJ; Гилберт, Калифорния; Рейс, BY; Chueh, HC; Kohane, IS; Мандл, К.Д. (2007). «Самомасштабирующаяся распределенная информационная архитектура для общественного здравоохранения, научных исследований и клинической помощи» . J Am Med Inform Assoc . 14 (4): 527–33. DOI : 10.1197 / jamia.M2371 . PMC 2244902 . PMID 17460129 .  
  11. ^ а б Ито, Коичи; Когуре, июн; Симояма, Такеши; Цуда, Хироши (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Научно-технический журнал Fujitsu . 52 (3): 28–36.
  12. ^ a b Николсон, С .; Смит, Калифорния (2006). «Использование уроков здравоохранения для защиты конфиденциальности пользователей библиотеки: Руководство по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информационных наук и технологий . 42 : н / д. DOI : 10.1002 / meet.1450420106 .
  13. ^ Куп, Алекс. «Решение Sidewalk Labs переложить жесткие решения по конфиденциальности на третью сторону неверно, - говорит ее бывший консультант» . IT World Canada . Проверено 27 июня 2019 .
  14. ^ а б Макгуайр, Алабама; Гиббс, РА (2006). «ГЕНЕТИКА: больше не деидентифицировано» . Наука . 312 (5772): 370–371. DOI : 10.1126 / science.1125339 . PMID 16627725 . 
  15. ^ а б Ториссон, Джорджия; Muilu, J .; Брукс, AJ (2009). «Базы данных генотип-фенотип: проблемы и решения для постгеномной эпохи». Природа Обзоры Генетики . 10 (1): 9–18. DOI : 10.1038 / nrg2483 . ЛВП : 2381/4584 . PMID 19065136 . 
  16. ^ Гомер, N .; Szelinger, S .; Редман, М .; Duggan, D .; Tembe, W .; Muehling, J .; Пирсон, СП; Стефан, Д.А.; Nelson, SF; Крейг, DW (2008). Вишер, Питер М. (ред.). «Устранение лиц, вносящих следовые количества ДНК в очень сложные смеси, с использованием микрочипов для генотипирования SNP с высокой плотностью» . PLoS Genetics . 4 (8): e1000167. DOI : 10.1371 / journal.pgen.1000167 . PMC 2516199 . PMID 18769715 .  
  17. ^ PCAST. «Отчет президенту - большие данные и конфиденциальность: технологическая перспектива» (PDF) . Проверено 28 марта 2016 .
  18. ^ «Деидентификация 201» . Аналитика конфиденциальности . 2015 г.
  19. ^ 45 CFR 164.512)

Внешние ссылки [ править ]

  • Симсон Л. Гарфинкель (16 декабря 2015 г.). «NISTIR 8053, Деидентификация личной информации» (PDF) . NIST . Проверено 3 января 2016 .
  • Учебная серия по правительственным стандартам деидентификации США
  • Руководство относительно методов обезличивания защищенной информации о здоровье
  • Ом, Пол (2010). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимности» (PDF) . Обзор закона UCLA . 57 : 1701–77.
  • Падилья-Лопес, Хосе Рамон; Чарауи, Александрос Андре; Флорес-Ревуэльта, Франсиско (июнь 2015 г.). «Визуальные методы защиты конфиденциальности: обзор» (PDF) . Экспертные системы с приложениями . 42 (9): 4177–4195. DOI : 10.1016 / j.eswa.2015.01.041 .
  • Чаарауи, Александрос; Падилья-Лопес, Хосе; Феррандес-Пастор, Франсиско; Ньето-Идальго, Марио; Флорес-Ревуэльта, Франсиско (20 мая 2014 г.). «Визуально-ориентированная система интеллектуального мониторинга: анализ поведения человека и конфиденциальность по контексту» . Датчики . 14 (5): 8895–8925. DOI : 10.3390 / s140508895 . PMC  4063058 . PMID  24854209 .