Деидентификация

В то время как человека обычно легко идентифицировать по фотографии, сделанной непосредственно с ним, задача идентифицировать его на основе ограниченных данных сложнее, но иногда возможно.

Деидентификация - это процесс, используемый для предотвращения раскрытия чьей-либо личности . Например, данные, полученные в ходе исследования на людях, могут быть обезличены, чтобы сохранить конфиденциальность участников исследования . Биологические данные могут быть деидентифицированы в соответствии с правилами HIPAA, которые определяют и предусматривают законы о конфиденциальности пациентов. ^[1]

Применительно к метаданным или общим данным об идентификации этот процесс также известен как анонимизация данных . Общие стратегии включают удаление или маскирование личных идентификаторов , таких как личное имя , а также подавление или обобщение квазиидентификаторов , таких как дата рождения. Обратный процесс использования обезличенных данных для идентификации людей известен как повторная идентификация данных . Успешная повторная идентификация ^[2]^[3]^[4]^[5]поставить под сомнение эффективность деидентификации. Систематический обзор четырнадцати различных атак повторной идентификации выявил «высокий уровень повторной идентификации […], в котором преобладают мелкомасштабные исследования данных, которые не были деидентифицированы в соответствии с существующими стандартами». ^[6]

Деидентификация считается одним из основных подходов к защите конфиденциальности данных . Он обычно используется в областях связи, мультимедиа, биометрии, больших данных , облачных вычислений, интеллектуального анализа данных , Интернета, социальных сетей и аудио-видеонаблюдения. ^[7]

Примеры [ править ]

При разработке опросов [ править ]

Для сбора информации о группе людей проводится обследование, например перепись . Чтобы стимулировать участие и защитить конфиденциальность респондентов опроса, исследователи пытаются спроектировать опрос таким образом, чтобы, когда люди участвуют в опросе, было невозможно сопоставить индивидуальный ответ (-и) участника с любыми опубликованными данными.

Перед использованием информации [ править ]

Когда веб-сайт онлайн-покупок хочет знать предпочтения и покупательские привычки своих пользователей, он решает извлечь данные клиентов из своей базы данных и провести их анализ. Информация о личных данных включает личные идентификаторы, которые были собраны непосредственно при создании клиентами своих учетных записей. Веб-сайт должен предварительно обработать данные с помощью методов деидентификации перед анализом записей данных, чтобы избежать нарушения конфиденциальности своих клиентов.

Анонимизация [ править ]

Анонимизация относится к необратимому отделению набора данных от личности автора данных в исследовании, чтобы предотвратить любую повторную идентификацию в будущем даже организаторами исследования при любых условиях. ^[8]^[9] Деидентификация также может включать в себя сохранение идентифицирующей информации, которая может быть повторно связана только доверенной стороной в определенных ситуациях. ^[8]^[9]^[10] В технологическом сообществе ведутся споры о том, следует ли считать данные, которые могут быть повторно связаны даже доверенной стороной, деидентификацией.

Методы [ править ]

Распространенными стратегиями деидентификации являются маскирование личных идентификаторов и обобщение квазиидентификаторов . Псевдонимизация - это основной метод, используемый для маскировки личных идентификаторов из записей данных, а k-анонимизация обычно применяется для обобщения квазиидентификаторов .

Псевдонимизация [ править ]

Псевдонимизация выполняется путем замены реальных имен временным идентификатором. Он удаляет или маскирует личные идентификаторы, чтобы сделать людей неопознанными. Этот метод позволяет отслеживать индивидуальную запись с течением времени, даже если запись будет обновляться. Однако это не может предотвратить идентификацию человека, если некоторые конкретные комбинации атрибутов в записи данных косвенно идентифицируют человека. ^[11]

k-анонимизация [ править ]

к-анонимную определяет атрибуты, косвенно указывает на идентичность индивида как квази-идентификаторов (QIS) и сделки с данными, делая при наименьших K индивидуумы имеют одинаковую комбинацию значений QI. ^[11] Значения QI обрабатываются в соответствии с конкретными стандартами. Например, k-анонимизация заменяет некоторые исходные данные в записях новыми значениями диапазона и сохраняет некоторые значения неизменными. Новая комбинация значений QI предотвращает идентификацию человека, а также предотвращает уничтожение записей данных.

Приложения [ править ]

Исследования по деидентификации проводятся в основном для защиты информации о здоровье . ^[12] Некоторые библиотеки переняли методы, используемые в отрасли здравоохранения, чтобы сохранить конфиденциальность своих читателей. ^[12]

В больших данных деидентификация широко применяется отдельными лицами и организациями. ^[7] С развитием социальных сетей, электронной коммерции и больших данных деидентификация иногда требуется и часто используется для обеспечения конфиденциальности данных, когда личные данные пользователей собираются компаниями или сторонними организациями, которые будут анализировать их для своих личное использование.

В умных городах деидентификация может потребоваться для защиты конфиденциальности жителей, рабочих и посетителей. Без строгого регулирования деидентификация может быть затруднена, поскольку датчики могут собирать информацию без согласия. ^[13]

Лимиты [ править ]

Каждый раз, когда человек участвует в генетических исследованиях, дарение биологического образца часто приводит к созданию большого количества персональных данных. Такие данные однозначно сложно деидентифицировать. ^[14]

Анонимизация генетических данных особенно трудна из-за огромного количества генотипической информации в биологических образцах ^[14], связи, которую образцы часто имеют с историей болезни, ^[15] и появления современных инструментов биоинформатики для интеллектуального анализа данных . ^[15] Были демонстрации того, что данные об отдельных лицах в совокупных коллекциях наборов генотипических данных могут быть привязаны к личности доноров образцов. ^[16]

Некоторые исследователи предположили, что неразумно когда-либо обещать участникам генетических исследований, что они могут сохранить свою анонимность, но вместо этого таких участников следует научить ограничениям использования кодированных идентификаторов в процессе деидентификации. ^[9]

Законы США об отказе от идентификации [ править ]

В мае 2014 года Совет советников президента США по науке и технологиям счел деидентификацию «в некоторой степени полезной в качестве дополнительной меры предосторожности», но не «полезной основой для политики», поскольку «она не является надежной против повторной идентификации в ближайшем будущем. методы ". ^[17]

HIPAA Правило конфиденциальности предоставляет механизмы для использования и раскрытия данных о состоянии здоровья ответственно без необходимости получения согласия пациента. Эти механизмы основаны на двух стандартах деидентификации HIPAA - Safe Harbor и Expert Determination Method. Safe Harbor полагается на удаление определенных идентификаторов пациентов (например, имени, номера телефона, адреса электронной почты и т. Д.), В то время как метод экспертного определения требует знания и опыта в отношении общепринятых статистических и научных принципов и методов, позволяющих сделать информацию, не идентифицируемую индивидуально. ^[18]

Безопасная гавань [ править ]

Метод безопасной гавани использует метод списков для деидентификации и имеет два требования:

Удаление или обобщение 18 элементов из данных.
Охватываемая организация или деловой партнер не имеет фактических сведений о том, что остаточная информация в данных может использоваться отдельно или в сочетании с другой информацией для идентификации человека. Safe Harbor - это строго предписывающий подход к деидентификации. Согласно этому методу все даты должны быть обобщены до года, а почтовые индексы должны быть сокращены до трех цифр. Тот же подход используется для данных независимо от контекста. Эта информация не может быть предоставлена даже в том случае, если информация должна быть передана проверенному исследователю, который желает проанализировать данные о сезонных изменениях в острых респираторных случаях и, следовательно, требует месяца госпитализации; будет сохранен только год поступления.

Определение эксперта [ править ]

Expert Determination использует подход к деидентификации, основанный на оценке риска, который применяет действующие стандарты и передовой опыт исследования для определения вероятности того, что человек может быть идентифицирован на основе его защищенной медицинской информации . Этот метод требует, чтобы лицо, обладающее соответствующими знаниями и опытом работы с общепринятыми статистическими и научными принципами и методами, предоставляло информацию, не поддающуюся индивидуальной идентификации. Это требует:

Очень мал риск того, что информация может быть использована отдельно или в сочетании с другой разумно доступной информацией предполагаемым получателем для идентификации лица, являющегося субъектом информации;
Документирует методы и результаты анализа, которые подтверждают такое определение.

Исследование потомков [ править ]

Ключевым законом об исследованиях данных электронных медицинских карт является Правило конфиденциальности HIPAA . Этот закон разрешает использование электронных медицинских карт умерших субъектов для исследований (Правило конфиденциальности HIPAA (раздел 164.512 (i) (1) (iii))). ^[19]

См. Также [ править ]

Генетическая конфиденциальность
Статистический контроль раскрытия информации

Ссылки [ править ]

^ Права (OCR), Управление по гражданским делам (2012-09-07). «Методы деидентификации PHI» . HHS.gov . Проверено 8 ноября 2020 .
^ Суини, Л. (2000). «Простая демография часто однозначно идентифицирует людей». Рабочий документ о конфиденциальности данных . 3 .
^ de Montjoye, Y.-A. (2013). «Уникальный в толпе: границы личной мобильности» . Научные отчеты . 3 : 1376. Bibcode : 2013NatSR ... 3E1376D . DOI : 10.1038 / srep01376 . PMC 3607247 . PMID 23524645 .
^ de Montjoye, Y.-A .; Radaelli, L .; Сингх, ВК; Пентланд, AS (29 января 2015 г.). «Уникальный в торговом центре: повторная идентификация метаданных кредитной карты» . Наука . 347 (6221): 536–539. Bibcode : 2015Sci ... 347..536D . DOI : 10.1126 / science.1256297 . PMID 25635097 .
Перейти ↑ Narayanan, A. (2006). «Как нарушить анонимность набора данных о призах netflix». arXiv : cs / 0610105 .
^ El Эмама Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье» . PLOS ONE . 10 (4): e28071. Bibcode : 2011PLoSO ... 628071E . DOI : 10.1371 / journal.pone.0028071 . PMC 3229505 . PMID 22164229 .
^ a b Рибарич, Слободан; Ariyaeeinia, Аладдин; Павешич, Никола (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: обзор» . Обработка сигналов: передача изображений . 47 : 131–151. DOI : 10.1016 / j.image.2016.05.020 .
^ a b Godard, BA; Шмидтке-младший; Кассиман, JJ; Эйме, SGN (2003). «Хранение данных и банкинг ДНК для биомедицинских исследований: информированное согласие, конфиденциальность, вопросы качества, право собственности, возврат пособий. Профессиональная перспектива» . Европейский журнал генетики человека . 11 : S88–122. DOI : 10.1038 / sj.ejhg.5201114 . PMID 14718939 .
^ a b c Фуллертон, С.М. Андерсон, штат Северная Каролина; Гузаускас, Г .; Freeman, D .; Фрайер-Эдвардс, К. (2010). «Решение задач управления исследованиями биорепозитория нового поколения» . Трансляционная медицина науки . 2 (15): 15 см3. DOI : 10.1126 / scitranslmed.3000361 . PMC 3038212 . PMID 20371468 .
^ Макмерри, AJ; Гилберт, Калифорния; Рейс, BY; Chueh, HC; Kohane, IS; Мандл, К.Д. (2007). «Самомасштабирующаяся распределенная информационная архитектура для общественного здравоохранения, научных исследований и клинической помощи» . J Am Med Inform Assoc . 14 (4): 527–33. DOI : 10.1197 / jamia.M2371 . PMC 2244902 . PMID 17460129 .
^ а б Ито, Коичи; Когуре, июн; Симояма, Такеши; Цуда, Хироши (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Научно-технический журнал Fujitsu . 52 (3): 28–36.
^ a b Николсон, С .; Смит, Калифорния (2006). «Использование уроков здравоохранения для защиты конфиденциальности пользователей библиотеки: Руководство по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информационных наук и технологий . 42 : н / д. DOI : 10.1002 / meet.1450420106 .
^ Куп, Алекс. «Решение Sidewalk Labs переложить жесткие решения по конфиденциальности на третью сторону неверно, - говорит ее бывший консультант» . IT World Canada . Проверено 27 июня 2019 .
^ а б Макгуайр, Алабама; Гиббс, РА (2006). «ГЕНЕТИКА: больше не деидентифицировано» . Наука . 312 (5772): 370–371. DOI : 10.1126 / science.1125339 . PMID 16627725 .
^ а б Ториссон, Джорджия; Muilu, J .; Брукс, AJ (2009). «Базы данных генотип-фенотип: проблемы и решения для постгеномной эпохи». Природа Обзоры Генетики . 10 (1): 9–18. DOI : 10.1038 / nrg2483 . ЛВП : 2381/4584 . PMID 19065136 .
^ Гомер, N .; Szelinger, S .; Редман, М .; Duggan, D .; Tembe, W .; Muehling, J .; Пирсон, СП; Стефан, Д.А.; Nelson, SF; Крейг, DW (2008). Вишер, Питер М. (ред.). «Устранение лиц, вносящих следовые количества ДНК в очень сложные смеси, с использованием микрочипов для генотипирования SNP с высокой плотностью» . PLoS Genetics . 4 (8): e1000167. DOI : 10.1371 / journal.pgen.1000167 . PMC 2516199 . PMID 18769715 .
^ PCAST. «Отчет президенту - большие данные и конфиденциальность: технологическая перспектива» (PDF) . Проверено 28 марта 2016 .
^ «Деидентификация 201» . Аналитика конфиденциальности . 2015 г.
^ 45 CFR 164.512)

Внешние ссылки [ править ]

Симсон Л. Гарфинкель (16 декабря 2015 г.). «NISTIR 8053, Деидентификация личной информации» (PDF) . NIST . Проверено 3 января 2016 .
Учебная серия по правительственным стандартам деидентификации США
Руководство относительно методов обезличивания защищенной информации о здоровье
Ом, Пол (2010). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимности» (PDF) . Обзор закона UCLA . 57 : 1701–77.
Падилья-Лопес, Хосе Рамон; Чарауи, Александрос Андре; Флорес-Ревуэльта, Франсиско (июнь 2015 г.). «Визуальные методы защиты конфиденциальности: обзор» (PDF) . Экспертные системы с приложениями . 42 (9): 4177–4195. DOI : 10.1016 / j.eswa.2015.01.041 .
Чаарауи, Александрос; Падилья-Лопес, Хосе; Феррандес-Пастор, Франсиско; Ньето-Идальго, Марио; Флорес-Ревуэльта, Франсиско (20 мая 2014 г.). «Визуально-ориентированная система интеллектуального мониторинга: анализ поведения человека и конфиденциальность по контексту» . Датчики . 14 (5): 8895–8925. DOI : 10.3390 / s140508895 . PMC 4063058 . PMID 24854209 .

[1] Права (OCR), Управление по гражданским делам (2012-09-07). «Методы деидентификации PHI» . HHS.gov . Проверено 8 ноября 2020 .

[sweeney2000-2] Суини, Л. (2000). «Простая демография часто однозначно идентифицирует людей». Рабочий документ о конфиденциальности данных . 3 .

[demontjoye2013-3] Montjoye, Y.-A. (2013). «Уникальный в толпе: границы личной мобильности» . Научные отчеты . 3 : 1376. Bibcode : 2013NatSR ... 3E1376D . DOI : 10.1038 / srep01376 . PMC 3607247 . PMID 23524645 .

[demontjoye2015-4] Montjoye, Y.-A .; Radaelli, L .; Сингх, ВК; Пентланд, AS (29 января 2015 г.). «Уникальный в торговом центре: повторная идентификация метаданных кредитной карты» . Наука . 347 (6221): 536–539. Bibcode : 2015Sci ... 347..536D . DOI : 10.1126 / science.1256297 . PMID 25635097 .

[narayanan2006-5] Перейти ↑ Narayanan, A. (2006). «Как нарушить анонимность набора данных о призах netflix». arXiv : cs / 0610105 .

[Malin,_El_Emam,_et_al-6] El Эмама Халед (2011). «Систематический обзор атак повторной идентификации на данные о здоровье» . PLOS ONE . 10 (4): e28071. Bibcode : 2011PLoSO ... 628071E . DOI : 10.1371 / journal.pone.0028071 . PMC 3229505 . PMID 22164229 .

[:0-7] Рибарич, Слободан; Ariyaeeinia, Аладдин; Павешич, Никола (сентябрь 2016 г.). «Деидентификация для защиты конфиденциальности в мультимедийном контенте: обзор» . Обработка сигналов: передача изображений . 47 : 131–151. DOI : 10.1016 / j.image.2016.05.020 .

[storage-8] Godard, BA; Шмидтке-младший; Кассиман, JJ; Эйме, SGN (2003). «Хранение данных и банкинг ДНК для биомедицинских исследований: информированное согласие, конфиденциальность, вопросы качества, право собственности, возврат пособий. Профессиональная перспектива» . Европейский журнал генетики человека . 11 : S88–122. DOI : 10.1038 / sj.ejhg.5201114 . PMID 14718939 .

[meeting-9] Фуллертон, С.М. Андерсон, штат Северная Каролина; Гузаускас, Г .; Freeman, D .; Фрайер-Эдвардс, К. (2010). «Решение задач управления исследованиями биорепозитория нового поколения» . Трансляционная медицина науки . 2 (15): 15 см3. DOI : 10.1126 / scitranslmed.3000361 . PMC 3038212 . PMID 20371468 .

[publichealth-10] Макмерри, AJ; Гилберт, Калифорния; Рейс, BY; Chueh, HC; Kohane, IS; Мандл, К.Д. (2007). «Самомасштабирующаяся распределенная информационная архитектура для общественного здравоохранения, научных исследований и клинической помощи» . J Am Med Inform Assoc . 14 (4): 527–33. DOI : 10.1197 / jamia.M2371 . PMC 2244902 . PMID 17460129 .

[:1-11] а б Ито, Коичи; Когуре, июн; Симояма, Такеши; Цуда, Хироши (2016). «Технологии деидентификации и шифрования для защиты личной информации» (PDF) . Научно-технический журнал Fujitsu . 52 (3): 28–36.

[library-12] Николсон, С .; Смит, Калифорния (2006). «Использование уроков здравоохранения для защиты конфиденциальности пользователей библиотеки: Руководство по деидентификации библиотечных данных на основе HIPAA» (PDF) . Труды Американского общества информационных наук и технологий . 42 : н / д. DOI : 10.1002 / meet.1450420106 .

[IT_World_June_2019-13] Куп, Алекс. «Решение Sidewalk Labs переложить жесткие решения по конфиденциальности на третью сторону неверно, - говорит ее бывший консультант» . IT World Canada . Проверено 27 июня 2019 .

[nolonger-14] а б Макгуайр, Алабама; Гиббс, РА (2006). «ГЕНЕТИКА: больше не деидентифицировано» . Наука . 312 (5772): 370–371. DOI : 10.1126 / science.1125339 . PMID 16627725 .

[Genotype-phenotype-15] а б Ториссон, Джорджия; Muilu, J .; Брукс, AJ (2009). «Базы данных генотип-фенотип: проблемы и решения для постгеномной эпохи». Природа Обзоры Генетики . 10 (1): 9–18. DOI : 10.1038 / nrg2483 . ЛВП : 2381/4584 . PMID 19065136 .

[16] Гомер, N .; Szelinger, S .; Редман, М .; Duggan, D .; Tembe, W .; Muehling, J .; Пирсон, СП; Стефан, Д.А.; Nelson, SF; Крейг, DW (2008). Вишер, Питер М. (ред.). «Устранение лиц, вносящих следовые количества ДНК в очень сложные смеси, с использованием микрочипов для генотипирования SNP с высокой плотностью» . PLoS Genetics . 4 (8): e1000167. DOI : 10.1371 / journal.pgen.1000167 . PMC 2516199 . PMID 18769715 .

[17] PCAST. «Отчет президенту - большие данные и конфиденциальность: технологическая перспектива» (PDF) . Проверено 28 марта 2016 .

[18] «Деидентификация 201» . Аналитика конфиденциальности . 2015 г.

[19] 45 CFR 164.512)

[1]

vтеПерсональная геномика
Сбор информации	Биобанк Биологическая база данных
Полевые концепции	Биологический образец Деидентификация Генетическая изменчивость человека Генетическая связь Однонуклеотидные полиморфизмы Идентичность по происхождению Генетическое расстройство
Приложения	Персонализированная медицина Прогностическая медицина Генетическая эпидемиология Фармакогеномика
Методы анализа	Секвенирование всего генома Полногеномное исследование ассоциации Массив SNP Генетическое тестирование
Основные проекты	Проект "Геном человека" Международный проект HapMap Проект 1000 геномов Проект разнообразия генома человека

vтеТелемедицина
Базовые концепции	Информатика здоровья Заочное медицинское обслуживание Телекоммуникации
Медицинская запись	Приемная записка Синяя кнопка Деидентификация Электронная медицинская карта Медицинское страхование Портативность и Акт об ответственности Личная медицинская карта
Участие пациентов	Помощь в принятии решений Отношения между врачом и пациентом Электронный пациент Здоровье 2.0 Санитарное просвещение Перевод знаний mHealth Совместное принятие решений в организациях Мера активации пациента Совместное принятие решений
Информация о здоровье в Интернете	Информация о здоровье в Википедии Онлайн-обучение пациентов PubMed
Телемедицина Subspecialties	электронное здравоохранение Удаленная хирургия Удаленная терапия Телеаудиология Телеэпидемиология Теледентология Теледерматология Телездравоохранение Телементальное здоровье Теленурсинг Телеофтальмология Телепатология Telepharmacy Телепсихиатрия Телерадиология Телереабилитация
Роли для игры	Программное обеспечение для здравоохранения с открытым исходным кодом Лидер мнения пациентов Участник исследования Виртуальный пациент