Псевдонимизация

Псевдонимизация - это процедура управления данными и деидентификации , при которой поля личной информации в записи данных заменяются одним или несколькими искусственными идентификаторами или псевдонимами . ^[1] Единый псевдоним для каждого замененного поля или набора замененных полей делает запись данных менее идентифицируемой, оставаясь при этом пригодной для анализа и обработки данных .

Псевдонимизация (или псевдонимизация) может быть одним из способов соблюдения требований нового Общего регламента ЕС по защите данных в отношении безопасного хранения личных данных. ^[2] Псевдонимизированные данные могут быть восстановлены в исходное состояние с добавлением информации, которая затем позволяет повторно идентифицировать людей, в то время как анонимные данные никогда не могут быть восстановлены в исходное состояние. ^[3]

Псевдонимизация - это метод и техника, используемые экспертами по безопасности или государственными служащими для сокрытия личной идентификационной информации с целью сохранения структуры данных и конфиденциальности информации . Некоторые распространенные примеры конфиденциальной информации включают: почтовый индекс, местонахождение людей, имена людей, расу и пол и т. Д.

Поля данных [ править ]

Выбор того, какие поля данных следует псевдонимизировать, отчасти субъективен. Также часто включаются менее избирательные поля, такие как Дата рождения или Почтовый индекс, поскольку они обычно доступны из других источников и, следовательно, упрощают идентификацию записи. Псевдонимизация этих менее идентифицирующих полей удаляет большую часть их аналитической ценности и поэтому обычно сопровождается введением новых производных и менее идентифицирующих форм, таких как год рождения или более крупная область почтового индекса .

Поля данных, которые менее идентифицируют, такие как дата посещения, обычно не псевдонимизируются. Важно понимать, что это происходит потому, что при этом теряется слишком много статистической полезности, а не потому, что данные не могут быть идентифицированы. Например, имея предварительную информацию о нескольких датах посещаемости, легко идентифицировать чьи-то данные в псевдонимизированном наборе данных, выбрав только тех людей с этим шаблоном дат. Это пример атаки логическим выводом .

Слабость псевдонимизированных данных до GDPR для атак на логические выводы обычно не учитывается. Известный пример - скандал с поисковыми данными AOL . Пример несанкционированной повторной идентификации AOL не требовал доступа к отдельно хранимой «дополнительной информации», которая находилась под контролем контроллера данных, как теперь требуется для псевдонимизации в соответствии с GDPR, описанной ниже в разделе «Новое определение псевдонимизации в соответствии с GDPR» .

Для защиты статистически полезных псевдонимизированных данных от повторной идентификации необходимо:

надежная база информационной безопасности
контроль риска того, что аналитики, исследователи или другие специалисты по обработке данных вызовут нарушение конфиденциальности

Псевдоним позволяет отслеживать данные к своим истокам, что выгодно отличает pseudonymization от обезличивания , ^[4] , где все персонифицированных данные , которые могли бы позволить возвратам продуты. Псевдонимизация - это проблема, например, в данных о пациентах, которые необходимо безопасно передавать между клиническими центрами.

Применение pseudonymization для электронного здравоохранения намерено сохранить конфиденциальность пациента и конфиденциальность данных . Это позволяет использовать медицинские записи в первую очередь уполномоченными поставщиками медицинских услуг и с сохранением конфиденциальности вторичного использования исследователями. ^[5] В США HIPAA предоставляет руководящие принципы обработки данных здравоохранения, а обезличивание или псевдонимизация данных является одним из способов упростить соблюдение HIPAA. ^[6] Однако простая псевдонимизация для сохранения конфиденциальности часто достигает своих пределов, когда речь идет о генетических данных (см. Также генетическую конфиденциальность.). Из-за идентифицирующего характера генетических данных обезличивания часто недостаточно, чтобы скрыть соответствующее лицо. Возможные решения - сочетание псевдонимизации с фрагментацией и шифрованием . ^[7]

Пример применения процедуры pseudonymization является созданием наборов данных для де-идентификация исследований путем замены идентифицирующих слов со словами из той же категории (например , замена имени со случайным именем из имен словарь), ^[8]^[9]^[10] однако в этом случае, как правило, невозможно отследить данные до их источника.

Новое определение псевдонимизации в соответствии с GDPR [ править ]

Действующий с 25 мая 2018 года Общий регламент ЕС по защите данных (GDPR) впервые определяет псевдонимизацию на уровне ЕС в статье 4 (5). В соответствии с требованиями к определению статьи 4 (5) данные считаются псевдонимными, если они не могут быть отнесены к конкретному субъекту данных без использования отдельно хранимой «дополнительной информации». Псевдонимизированные данные олицетворяют современное состояние защиты данных по дизайну и по умолчанию ^[11], поскольку они требуют защиты как прямых, так и косвенных идентификаторов (а не только прямых). Принципы GDPR Data Protection by Design и по умолчанию, воплощенные в псевдонимизации, требуют защиты как прямых, так и косвенных идентификаторов, чтобы на личные данные нельзя было ссылаться (или повторно идентифицировать) через «Эффект мозаики» ^[12]без доступа к «дополнительной информации», которая хранится отдельно у контролера. Поскольку для повторной идентификации требуется доступ к отдельно хранимой «дополнительной информации», отнесение данных к конкретному субъекту данных может быть ограничено контроллером только в законных целях.

Статья 25 (1) GDPR определяет псевдонимизацию как « соответствующую техническую и организационную меру », а статья 25 (2) требует от контроллеров:

«… Принять соответствующие технические и организационные меры для обеспечения того, чтобы по умолчанию обрабатывались только те личные данные, которые необходимы для каждой конкретной цели обработки. Это обязательство распространяется на объем собранных персональных данных, объем их обработки, срок их хранения и их доступность. В частности, такие меры должны гарантировать, что по умолчанию личные данные не станут доступными без вмешательства отдельного лица для неопределенного числа физических лиц ».

Центральным ядром защиты данных по замыслу и по умолчанию в соответствии со статьей 25 GDPR является обеспечение контроля за технологиями, которые поддерживают надлежащее использование и способность продемонстрировать, что вы действительно можете сдержать свои обещания. Такие технологии, как псевдонимизация, которые обеспечивают защиту данных по дизайну и по умолчанию, показывают отдельным субъектам данных, что помимо разработки новых способов извлечения ценности из данных, организации применяют не менее инновационные технические подходы к защите конфиденциальности данных - это особенно деликатная и актуальная проблема. эпидемия нарушений безопасности данных по всему миру.

Яркие и растущие области экономической деятельности - «экономика доверия», исследования в области наук о жизни, персонализированная медицина / образование, Интернет вещей, персонализация товаров и услуг - основаны на уверенности людей в том, что их данные являются конфиденциальными, защищенными и используются только для соответствующих целей, приносящих им и обществу максимальную ценность. Это доверие невозможно сохранить, используя устаревшие подходы к защите данных. Псевдонимизация, как новое определение в GDPR, - это средство, помогающее достичь защиты данных по дизайну и по умолчанию для завоевания и поддержания доверия и более эффективного обслуживания предприятий, исследователей, поставщиков медицинских услуг и всех, кто полагается на целостность данных.

Псевдонимизация, совместимая с GDPR, не только обеспечивает большее использование данных с соблюдением конфиденциальности в сегодняшнем мире « больших данных » обмена и объединения данных, но также позволяет контроллерам и обработчикам данных получать явные преимущества в соответствии с GDPR для правильно псевдонимизированных данных. Псевдонимизированные данные выделены в нескольких статьях GDPR, в том числе:

Статья 6 (4) в качестве гарантии, помогающей обеспечить совместимость обработки новых данных.
Статья 25 как техническая и организационная мера для обеспечения соблюдения принципов минимизации данных и соблюдения обязательств по защите данных по дизайну и по умолчанию.
Статьи 32, 33 и 34 в качестве меры безопасности, помогающей предотвратить утечки данных, «вряд ли приведшие к риску для прав и свобод физических лиц», тем самым снижая ответственность и обязательства по уведомлению в случае утечки данных.
Статья 89 (1) в качестве гарантии в связи с обработкой в архивных целях в общественных интересах; научные или исторические исследовательские цели; или в статистических целях; кроме того, преимущества псевдонимизации в соответствии со статьей 89 (1) также обеспечивают большую гибкость в отношении:
1. Статья 5 (1) (b) в отношении ограничения цели;
2. Статья 5 (1) (e) в отношении ограничения хранения; и
3. Статья 9 (2) (j) в отношении преодоления общего запрета на обработку специальных категорий персональных данных, предусмотренных статьей 9 (1).
Кроме того, должным образом псевдонимизированные данные признаются в Мнении Рабочей группы по Статье 29 06/2014 как играющие «… роль в оценке потенциального воздействия обработки на субъекта данных ... склоняющего чашу весов в пользу контролера. ”Для поддержки обработки законных интересов в качестве правовой основы в соответствии со статьей 6 (1) (f) статьи GDPR. Выгоды от обработки персональных данных с использованием законного интереса с псевдонимом в качестве правовой основы в соответствии с GDPR включают, помимо прочего:
1. В соответствии со Статьей 17 (1) (c), если контролер данных показывает, что у него «преобладающие законные основания для обработки», поддерживаемые техническими и организационными мерами для удовлетворения критерия сбалансированности интересов, он имеет большую гибкость в выполнении требований о праве на забвение. .
2. В соответствии со статьей 18 (1) (d), контролер данных может гибко удовлетворять претензии по ограничению обработки персональных данных, если он может продемонстрировать, что у него есть технические и организационные меры, чтобы права контролера данных должным образом преобладали над правами субъект данных, потому что права субъектов данных защищены.
3. В соответствии со статьей 20 (1) контроллеры данных, использующие обработку Законных интересов, не подпадают под право на переносимость, которое применяется только к обработке на основе согласия.
4. В соответствии со статьей 21 (1), контроллер данных, использующий обработку законного интереса, может продемонстрировать, что у него есть соответствующие технические и организационные меры, чтобы права контроллера данных должным образом преобладали над правами субъекта данных, поскольку права субъектов данных защищены; однако субъекты данных всегда имеют право в соответствии со статьей 21 (3) не получать прямую маркетинговую информацию в результате такой обработки.

См. Также [ править ]

Клиническая информационная система
Динамическое маскирование данных
FLAIM
Конфиденциальность

Ссылки [ править ]

^ «Общие правила защиты данных» . 4 (5).CS1 maint: location ( ссылка )
^ Наука о данных в соответствии с GDPR с псевдонимизацией в конвейере данных Опубликовано Dativa, 17 апреля 2018 г.
^ Псевдонимизация против анонимности и как они помогают с GDPR Опубликовано в январе 2017 г. Дата обращения 20 апреля 2018 г.
^ http://dud.inf.tu-dresden.de/literatur/Anon_Terminology_v0.31.pdf Анонимность, несвязанность, необнаруживаемость, ненаблюдаемость, псевдонимность и управление идентификацией - сводное предложение по терминологии
^ Нойбауэр, Т; Heurix, J (март 2011 г.). «Методология псевдонимизации медицинских данных». Int J Med Inform . 80 (3): 190–204. DOI : 10.1016 / j.ijmedinf.2010.10.016 . PMID 21075676 .
^ «Деидентификация данных - более простой способ соблюдения требований HIPAA» . www.truevault.com .
^ http://www.xylem-technologies.com/2011/09/07/privacy-preserving-storage-and-access-of-medical-data-through-pseudonymization-and-encryption Сохранение конфиденциальности при хранении медицинских данных и доступе к ним. Данные через псевдонимизацию и шифрование
^ Neamatullah, Ишни; Дуглас, Маргарет М; Ли-вэй; Lehman, H; Рейснер, Эндрю; Вильярро, Маурисио; Лонг, Уильям Дж; Соловиц, Петр; Муди, Джордж Б; Марк, Роджер Джи; Клиффорд, Гари Д. (2008). «Автоматическая деидентификация произвольных медицинских записей» . BMC Медицинская информатика и принятие решений . 8 : 32. DOI : 10,1186 / 1472-6947-8-32 . PMC 2526997 . PMID 18652655 .
^ org / Physiotools / deid / doc / ishna-meng-thesis.pdf
^ Делегер, L; и другие. (2014). «Подготовка аннотированного корпуса по золотому стандарту, который будет делиться с заочными следователями для исследования по деидентификации» . Дж Биомед Информ . 50 : 173–183. DOI : 10.1016 / j.jbi.2014.01.014 . PMC 4125487 . PMID 24556292 .
^ https://ec.europa.eu/info/law/law-topic/data-protection/reform/rules-business-and-organisations/obligations/what-does-data-protection-design-and-default-mean_en
^ Виджаян, Jaikumar (2004-03-15). «Боковая панель: Эффект мозаики» . Компьютерный мир . Источник 2021-01-26 .

[1] «Общие правила защиты данных» . 4 (5).CS1 maint: location ( ссылка )

[2] Наука о данных в соответствии с GDPR с псевдонимизацией в конвейере данных Опубликовано Dativa, 17 апреля 2018 г.

[3] Псевдонимизация против анонимности и как они помогают с GDPR Опубликовано в январе 2017 г. Дата обращения 20 апреля 2018 г.

[4] ttp://dud.inf.tu-dresden.de/literatur/Anon_Terminology_v0.31.pdf Анонимность, несвязанность, необнаруживаемость, ненаблюдаемость, псевдонимность и управление идентификацией - сводное предложение по терминологии

[5] Нойбауэр, Т; Heurix, J (март 2011 г.). «Методология псевдонимизации медицинских данных». Int J Med Inform . 80 (3): 190–204. DOI : 10.1016 / j.ijmedinf.2010.10.016 . PMID 21075676 .

[6] «Деидентификация данных - более простой способ соблюдения требований HIPAA» . www.truevault.com .

[7] ttp://www.xylem-technologies.com/2011/09/07/privacy-preserving-storage-and-access-of-medical-data-through-pseudonymization-and-encryption Сохранение конфиденциальности при хранении медицинских данных и доступе к ним. Данные через псевдонимизацию и шифрование

[8] Neamatullah, Ишни; Дуглас, Маргарет М; Ли-вэй; Lehman, H; Рейснер, Эндрю; Вильярро, Маурисио; Лонг, Уильям Дж; Соловиц, Петр; Муди, Джордж Б; Марк, Роджер Джи; Клиффорд, Гари Д. (2008). «Автоматическая деидентификация произвольных медицинских записей» . BMC Медицинская информатика и принятие решений . 8 : 32. DOI : 10,1186 / 1472-6947-8-32 . PMC 2526997 . PMID 18652655 .

[9] rg / Physiotools / deid / doc / ishna-meng-thesis.pdf

[10] Делегер, L; и другие. (2014). «Подготовка аннотированного корпуса по золотому стандарту, который будет делиться с заочными следователями для исследования по деидентификации» . Дж Биомед Информ . 50 : 173–183. DOI : 10.1016 / j.jbi.2014.01.014 . PMC 4125487 . PMID 24556292 .

[11] ttps://ec.europa.eu/info/law/law-topic/data-protection/reform/rules-business-and-organisations/obligations/what-does-data-protection-design-and-default-mean_en

[Vijayan_2004-12] Виджаян, Jaikumar (2004-03-15). «Боковая панель: Эффект мозаики» . Компьютерный мир . Источник 2021-01-26 .

[1]