Повторная идентификация или деанонимизация данных - это практика сопоставления анонимных данных (также известных как деидентифицированные данные) с общедоступной информацией или вспомогательными данными с целью обнаружения лица, которому принадлежат данные. [1] Это вызывает беспокойство, потому что компании с политикой конфиденциальности , поставщики медицинских услуг и финансовые учреждения могут публиковать данные, которые они собирают, после того, как данные прошли процесс деидентификации.
Процесс деидентификации включает маскирование, обобщение или удаление как прямых, так и косвенных идентификаторов ; Однако определение этого процесса не универсально. Информация в общественном достоянии , даже кажущаяся анонимной, может быть, таким образом, повторно идентифицирована в сочетании с другими частями доступных данных и базовыми методами информатики. Организация «Защита человеческих субъектов» («Common Rule # Signators»), объединяющая несколько федеральных агентств и ведомств США, включая Министерство здравоохранения и социальных служб США , предполагает, что повторная идентификация постепенно становится легче из-за « больших данных » - изобилие и постоянный сбор и анализ информации о развитии технологий и достижении алгоритмов. Однако другие утверждали, что деидентификация является безопасным и эффективным инструментом освобождения данных, и не рассматривают повторную идентификацию как проблему. [2]
Все больше и больше данных становятся общедоступными через Интернет. Эти данные публикуются после применения некоторых методов анонимизации, таких как удаление личной информации (PII), такой как имена, адреса и номера социального страхования, для обеспечения конфиденциальности источников. Эта гарантия конфиденциальности позволяет правительству на законных основаниях делиться ограниченными наборами данных с третьими сторонами без письменного разрешения. Такие данные оказались очень ценными для исследователей, особенно в области здравоохранения.
Риск повторной идентификации значительно снижается за счет псевдонимизации в соответствии с GDPR, которая требует, чтобы данные не могли быть отнесены к конкретному субъекту данных без использования отдельно хранимой «дополнительной информации». Псевдонимизированные данные, соответствующие GDPR, олицетворяют новейшие достижения в области защиты данных по дизайну и по умолчанию, поскольку они требуют защиты как прямых, так и косвенных идентификаторов (не только прямых). Принципы GDPR Data Protection by Design и по умолчанию, воплощенные в псевдонимизации, требуют защиты как прямых, так и косвенных идентификаторов, чтобы на личные данные нельзя было ссылаться (или повторно идентифицировать) через Эффект мозаики без доступа к «дополнительной информации», которая хранится отдельно контроллером. Поскольку для повторной идентификации требуется доступ к отдельно хранимой «дополнительной информации», отнесение данных к конкретному субъекту данных может быть ограничено контроллером только в законных целях.
Правовая защита данных в США
Существующие правила конфиденциальности обычно защищают информацию, которая была изменена, так что данные считаются анонимными или обезличенными. Что касается финансовой информации, Федеральная торговая комиссия разрешает ее распространение, если она деидентифицирована и агрегирована. [3] Закон Грэмма Лича Блайли (GLBA), который обязывает финансовые учреждения предоставлять потребителям возможность отказаться от предоставления их информации третьим сторонам, не распространяется на обезличенные данные, если информация является совокупной и не содержит личных идентификаторов. , поскольку эти данные не рассматриваются как личная информация . [3]
Образовательные записи
Что касается университетских рекордов, власти как на уровне штата, так и на федеральном уровне продемонстрировали осведомленность о проблемах конфиденциальности в образовании и отвращение к раскрытию информации учреждениями. Департамент образования США предоставили рекомендацию о дискурсе данных и идентификации, поручив учебные заведения , чтобы быть чувствительными к риску повторной идентификации анонимных данных пути перекрестных ссылок со вспомогательными данными, чтобы минимизировать количество данных в открытом доступе за счетом уменьшения публикация справочной информации о студентах и персонале вуза, а также согласованность в процессах деидентификации. [4]
Медицинские записи
Медицинская информация о пациентах становится все более доступной в Интернете, на бесплатных и общедоступных платформах, таких как HealthData.gov и PatientsLikeMe , при поддержке государственной политики открытых данных и инициатив по обмену данными, инициированных частным сектором. Хотя такой уровень доступности дает много преимуществ, высказывались опасения по поводу дискриминации и неприкосновенности частной жизни. [5] Защита медицинских карт и данных о потребителях из аптек более строгая по сравнению с защитой других видов данных о потребителях. Закон о переносимости и подотчетности в медицинском страховании (HIPAA) защищает конфиденциальность идентифицируемых данных о здоровье, но разрешает раскрытие информации третьим сторонам в случае анонимности. Кроме того, он требует, чтобы пациенты получали уведомления о нарушениях, если существует более чем низкая вероятность того, что информация о пациенте была раскрыта или использована ненадлежащим образом без достаточного смягчения ущерба для него или нее. [6] Вероятность повторной идентификации является фактором, определяющим вероятность того, что информация о пациенте была скомпрометирована. Обычно аптеки продают обезличенную информацию компаниям по интеллектуальному анализу данных, которые, в свою очередь, продают ее фармацевтическим компаниям. [3]
Были приняты законы штата, запрещающие интеллектуальный анализ данных медицинской информации, но они были отменены федеральными судами в штатах Мэн и Нью-Гэмпшир на основании Первой поправки. Другой федеральный суд по другому делу использовал слово «иллюзорное» для описания опасений по поводу конфиденциальности пациентов и не признал риски повторной идентификации. [3]
Биопробы
Уведомление о предлагаемых правилах, опубликованное Common Rule Agencies в сентябре 2015 года, расширило общий термин «человек в исследованиях», включив в него биопробы или материалы, взятые из человеческого тела - кровь, мочу, ткани и т. Д. Это требует, чтобы Исследователи, использующие биопробы, должны соблюдать более строгие требования к исследованиям на людях. Обоснованием этого является повышенный риск повторной идентификации биопрепаратов. [7] Заключительные изменения подтвердили это положение. [8]
Усилия по повторной идентификации
Было предпринято значительное количество успешных попыток повторной идентификации в различных областях. Даже если непрофессионалу нелегко нарушить анонимность, как только шаги для этого раскрыты и изучены, нет необходимости в знаниях более высокого уровня для доступа к информации в базе данных . Иногда техническая экспертиза даже не требуется, если совокупность имеет уникальную комбинацию идентификаторов. [3]
Медицинские записи
В середине 1990-х годов правительственное агентство в Массачусетсе под названием Group Insurance Commission (GIC), которое приобрело медицинскую страховку для сотрудников штата, решило бесплатно предоставить записи о посещениях больниц любому исследователю, который запросил данные. GIC заверила, что конфиденциальность пациента не вызывает беспокойства, поскольку она удалила такие идентификаторы, как имя, адреса, номера социального страхования. Однако такая информация, как почтовые индексы, дата рождения и пол, осталась нетронутой. Заверение GIC было подкреплено тогдашним губернатором Массачусетса Уильямом Велдом. Латанья Суини , в то время аспирантка, решила найти записи губернатора в данных GIC. Объединив данные GIC с базой данных избирателей города Кембриджа, которую она приобрела за 20 долларов, запись губернатора Уэлда была легко обнаружена. [9]
В 1997 году исследователь успешно деанонимизировал медицинские записи, используя базы данных избирателей. [3]
В 2001 году профессор Латанья Суини снова использовала анонимные записи о посещениях больниц и протоколы голосования в штате Вашингтон и в 43% случаев успешно подбирала людей. [10]
Существуют существующие алгоритмы, используемые для повторной идентификации пациента по рецептурным лекарствам. [3]
Потребительские привычки и обычаи
Два исследователя из Техасского университета , Арвинд Нараянан и профессор Виталий Шматиков, смогли повторно идентифицировать некоторую часть анонимных данных рейтинга фильмов Netflix с отдельными потребителями на веб-сайте потоковой передачи. [11] [12] [13] Данные были опубликованы Netflix 2006 после деидентификации, которая заключалась в замене отдельных имен случайными числами и перемещении личных данных. Два исследователя деанонимизировали некоторые данные, сравнив их с рейтингами фильмов пользователей IMDb (Internet Movie Database). Было обнаружено, что для идентификации подписчика требуется очень мало информации из базы данных. [3] В итоговой исследовательской работе были приведены поразительные откровения о том, насколько легко повторно идентифицировать пользователей Netflix. Например, простое знание данных только о двух фильмах, просмотренных пользователем, включая точную оценку и дату выставления оценки, плюс-минус три дня, позволяет добиться 68% успеха повторной идентификации. [9]
В 2006 году, после того как AOL опубликовала поисковые запросы своих пользователей, данные, которые были анонимными до публичного обнародования, репортеры The New York Times успешно провели повторную идентификацию людей, взяв группы поисков, выполненных анонимными пользователями. [3] AOL пыталась скрыть идентифицирующую информацию, включая имена пользователей и IP-адреса, но заменила их уникальными идентификационными номерами, чтобы сохранить полезность этих данных для исследователей. После публикации блоггеры изучали данные, либо пытаясь идентифицировать конкретных пользователей с этим контентом, либо указывать на развлекательные, удручающие или шокирующие поисковые запросы, примеры которых включают «как убить свою жену», «депрессия и медицинские оставить "," фотографии автокатастроф ". Два репортера, Майкл Барбаро и Том Зеллер, смогли разыскать 62-летнюю вдову по имени Тельма Арнольд, узнав ключи к разгадке личности в поисковых историях пользователя 417729. Арнольд признал, что она была автором обысков, подтвердив, что повторная идентификация возможна. [9]
Данные о местоположении
Данные о местоположении - ряды географических положений во времени, которые описывают местонахождение и передвижения человека - представляют собой класс личных данных, анонимность которых особенно сложно сохранить. Местоположение показывает повторяющиеся посещения часто посещаемых мест повседневной жизни, таких как дом, работа, магазины, здравоохранение или определенные схемы свободного времени. [14] Удаление только личности человека из данных о местоположении не удалит идентифицируемые закономерности, такие как ритмы поездок, спальные или рабочие места. Сопоставляя координаты с адресами, данные о местоположении легко повторно идентифицировать [15] или соотносить с контекстами личной жизни человека. Потоки информации о местоположении играют важную роль в восстановлении личных идентификаторов из данных смартфона, к которым имеют доступ приложения. [16]
Судебные решения
В 2019 году профессор Керстин Ноэлль Вокингер и доктор Урс Якоб Мюлематтер, два исследователя из Цюрихского университета , проанализировали дела Федерального верховного суда Швейцарии, чтобы оценить, какие фармацевтические компании и какие медицинские препараты были вовлечены в судебные иски против Федерального управления США. Общественное здравоохранение (FOPH) в отношении решений о ценообразовании на медицинские препараты. В целом, вовлеченные частные стороны (например, фармацевтические компании) и информация, которая может раскрыть частную сторону (например, названия лекарств), анонимны в судебных решениях Швейцарии. Исследователи смогли повторно идентифицировать 84% соответствующих анонимных дел Федерального верховного суда Швейцарии , связав информацию из общедоступных баз данных. [17] [18] Это достижение было освещено в СМИ, и началась дискуссия о том, следует ли и как анонимизировать судебные дела. [19] [20]
Обеспокоенность и последствия
Исследование 2000 года показало, что 87 процентов населения США можно идентифицировать, используя комбинацию их пола, даты рождения и почтового индекса . Другие не считают повторную идентификацию серьезной угрозой и называют это «мифом»; они утверждают, что сочетание почтового индекса, даты рождения и пола является редким или частично полным, например, только год и месяц рождения без даты или название округа вместо конкретного почтового индекса, таким образом, существует риск такого повторного- идентификация снижается во многих случаях. Эти примеры несанкционированной повторной идентификации не требовали доступа к отдельно хранимой «дополнительной информации», которая находилась под контролем контроллера данных, как теперь требуется для псевдонимизации в соответствии с GDPR.
Лица, чьи данные повторно идентифицируются, также подвергаются риску того, что их информация с привязкой к ним будет продана организациям, которым они не хотят владеть частной информацией о своих финансах, здоровье или предпочтениях. Публикация этих данных может вызвать беспокойство, стыд или смущение. После того, как конфиденциальность человека была нарушена в результате повторной идентификации, будущие нарушения становятся намного проще: после установления связи между одним фрагментом данных и реальной личностью человека любая связь между данными и анонимной идентичностью нарушает анонимность данных. человек. [3]
Повторная идентификация может подвергнуть компании, которые обещали обеспечить анонимность, повышенной ответственности за заключение контрактов или правонарушений и привести к нарушению их политики конфиденциальности, предоставив информацию третьим сторонам, которые могут идентифицировать пользователей после повторной идентификации. Они не только нарушают внутреннюю политику, но и учреждения могут нарушать законы штата и федеральные законы, такие как законы, касающиеся финансовой или медицинской конфиденциальности . [3]
Средства
Для устранения рисков повторной идентификации было предложено несколько предложений:
- Более высокие стандарты и единообразное определение деидентификации при сохранении полезности данных: определение деидентификации должно уравновешивать защиту конфиденциальности для снижения риска повторной идентификации с отказом компаний удалять данные [21]
- Повышенная защита конфиденциальности анонимной информации [3]
- Повышенная безопасность баз данных, хранящих анонимную информацию [3]
- Строгий запрет на злонамеренную повторную идентификацию, принятие более широкого законодательства о борьбе с дискриминацией и конфиденциальности, которое обеспечивает защиту конфиденциальности, а также поощряет участие в проектах и мероприятиях по обмену данными, а также установление единых стандартов защиты данных в академических сообществах, например в научное сообщество, чтобы свести к минимуму нарушения конфиденциальности [22]
- Создание политик раскрытия данных: обеспечение точности риторики деидентификации, составление контрактов, запрещающих попытки повторной идентификации и распространение конфиденциальной информации, создание анклавов данных и использование стратегий на основе данных для соответствия требуемым стандартам защиты до уровня риск. [23]
- Реализация дифференциальной конфиденциальности для запрашиваемых наборов данных
- Генерация синтетических данных, которые демонстрируют статистические свойства исходных данных, не позволяя идентифицировать реальных людей
Хотя настаивают на полном запрете на повторную идентификацию, его соблюдение будет затруднено. Тем не менее, у законодателей есть способы противодействовать и наказывать попытки повторной идентификации, если и когда они обнаруживаются: сочетание запрета с более суровыми санкциями и более строгим контролем со стороны Федеральной торговой комиссии и Федерального бюро расследований ; предоставить жертвам повторной идентификации право на иск против тех, кто их повторно идентифицирует; и обязать аудит программного обеспечения для людей, которые используют и анализируют анонимные данные. Небольшой запрет на повторную идентификацию также может быть наложен на доверенных получателей определенных баз данных, таких как правительственные сборщики данных или исследователи. Этот запрет будет намного легче обеспечить, и он может помешать повторной идентификации. [9]
Примеры деанонимизации
- "Исследователи из Массачусетского технологического института и Католического университета де Лувен в Бельгии проанализировали данные о 1,5 миллионах пользователей мобильных телефонов в небольшой европейской стране за 15 месяцев и обнаружили, что всего четыре точки отсчета с довольно низким пространственным и временным разрешением были достаточно, чтобы однозначно идентифицировать 95 процентов из них. Другими словами, чтобы извлечь полную информацию о местоположении одного человека из «анонимного» набора данных более миллиона человек, все, что вам нужно сделать, это поместить его или ее в пара сотен ярдов передатчика мобильного телефона, иногда в течение часа, четыре раза в год. Несколько сообщений в Twitter, вероятно, предоставят всю необходимую информацию, если они содержат конкретную информацию о местонахождении человека ». [24]
- «Обмен данными о последовательности коротких тандемных повторов на Y-хромосоме и запрос баз данных рекреационной генетической генеалогии. Показано, что комбинация фамилии с другими типами метаданных, такими как возраст и состояние, может использоваться для идентификации человека ... " [25]
Смотрите также
- Деидентификация
- доксинг
- K-анонимность
- Статистический контроль раскрытия информации
- Защищенная информация о здоровье
Рекомендации
- ^ "HTTPS, Secure HTTPS" , SpringerReference , Berlin / Heidelberg: Springer-Verlag , получено 13 января 2021 г.
- ^ Ричардсон, Виктор; Милам, Салли; Крайслер, Дениз (апрель 2015 г.). «Является ли совместное использование деидентифицированных данных законным? Состояние законов о конфиденциальности общественного здравоохранения и их взаимодействие с методами ограничения статистического раскрытия информации». Журнал права, медицины и этики . 43 (1_suppl): 83–86. DOI : 10.1111 / jlme.12224 . ЛВП : 2027,42 / 111074 . ISSN 1073-1105 . PMID 25846173 .
- ^ Б с д е е г ч я J к л м Портер, Кристин (2008). «Конституционные и нормативные требования: деидентифицированные данные и интеллектуальный анализ данных третьих лиц: риск повторной идентификации личной информации». Журнал Шидлера Вашингтонского университета по праву, торговле и технологиям . ЛВП : 1773,1 / 417 .
- ^ Пельц, Ричард (2009). «За последней границей:« пострасовая »Америка? Обязанности граждан: от башни из слоновой кости до стеклянного дома: доступ к« деидентифицированным »записям о приеме в государственные университеты для изучения позитивных действий». Гарвардский журнал по расовой и этической справедливости .
- ^ Хоффман, Шарона (2015). «Гражданская наука: закон и этика публичного доступа к большим медицинским данным». Журнал Berkeley Technology Law Journal . DOI : 10,15779 / Z385Z78 .
- ^ Гринберг, Елена (2016). «Последние изменения в делах: рост признания« риска причинения вреда »как травмы, достаточной для того, чтобы иметь право участвовать в коллективных делах о нарушении медицинских данных». Американский журнал права и медицины . 42 (1): 210–4. DOI : 10.1177 / 0098858816644723 . PMID 27263268 .
- ^ Гроден, Саманта; Мартин, Лето; Меррилл, Ребекка (2016). «Предлагаемые изменения к общему правилу: противостояние между правами пациентов и научными достижениями?». Журнал Закона о здоровье и биологических науках .
- ^ 24 Свода федеральных правил § .104 2017.
- ^ а б в г Ом, Пол (2010). «Нарушенные обещания конфиденциальности: ответ на неожиданный провал анонимности». UCLA Law Review .
- ^ Суини Л. Только вы, ваш доктор и многие другие могут знать. Технологические науки. 2015092903. 25 сентября 2015 г.
- ^ Роуз, Маргарет. «деанонимизация (деанонимизация)» . WhatIs.com . Проверено 19 января 2014 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ Нараянан, Арвинд; Шматиков, Виталий. «Надежная деанонимизация больших разреженных наборов данных» (PDF) . Проверено 19 января 2014 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ Нараянан, Арвинд; Шматиков, Виталий (22 ноября 2007 г.). «Как нарушить анонимность набора данных Netflix Prize». arXiv : cs / 0610105 .
- ^ Фрич, Лотар (2008), "Профилирование и Location-Based Services (LBS)", профилирующие европейский гражданин ., Springer Нидерланды, С. 147-168, DOI : 10.1007 / 978-1-4020-6914-7_8 , ISBN 978-1-4020-6913-0
- ^ Роше, Люк; Хендрикс, Жюльен М .; де Монжуа, Ив-Александр (23.07.2019). «Оценка успеха повторной идентификации в неполных наборах данных с использованием генеративных моделей» . Nature Communications . 10 (1): 3069. Bibcode : 2019NatCo..10.3069R . DOI : 10.1038 / s41467-019-10933-3 . ISSN 2041-1723 . PMC 6650473 . PMID 31337762 .
- ^ Фрич, Лотар; Момен, Нурул (2017). Производные частичные удостоверения, созданные на основе разрешений приложений . Gesellschaft für Informatik, Бонн. ISBN 978-3-88579-671-8.
- ^ Вокингер / Мюлематтер, Керстин Ноэль / Урс Якоб (2 сентября 2019 г.). "Identifikation von Gerichtsurteilen durch" Linkage "von Daten (banken)" . Джаслеттер (990).
- ^ Vokinger / Mühlematter, Kerstin Noëlle / Urs Jacob. "Re-Identifikation von Gerichtsurteilen durch" Linkage "von Daten (banken)" .
- ^ Чендлер, Саймон (4 сентября 2019 г.). «Исследователи используют большие данные и искусственный интеллект для устранения юридической конфиденциальности» . Forbes . Проверено 10 декабря 2019 . CS1 maint: обескураженный параметр ( ссылка )
- ^ "SRF Tagesschau" . SRF Швейцарское радио и телевидение. 2 сентября 2019 . Проверено 10 декабря 2019 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Лагос, Янни. 2014. «Симпозиум: Извлечение личной информации из данных: осмысление деидентификации». Обзор Закона Индианы. Проверено 26 марта 2017 года.
- ^ Ан, Седжин. 2015. «Комментарий: В любом случае, чей это геном? Повторная идентификация и защита конфиденциальности в общественной и совместной геномике». Обзор закона Сан-Диего. Проверено 26 марта 2017 года.
- ^ Rubinstein, Ira S и Hartzog, Вудро. 2016. «Анонимизация и риск» Вашингтонское юридическое обозрение. Проверено 26 марта 2017 года.
- ^ Хардести, Ларри. «Насколько сложно« деанонимизировать »данные мобильного телефона?» . Новости MIT . Проверено 14 января 2015 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ Мелисса Гимрек; Эми Л. Макгуайр; Дэвид Голан; Эран Гальперин; Янив Эрлих (18 января 2013 г.). «Идентификация личных геномов по фамилии». Наука . 339 (6117): 321–4. Bibcode : 2013Sci ... 339..321G . DOI : 10.1126 / SCIENCE.1229566 . ISSN 0036-8075 . PMID 23329047 . Викиданные Q29619963 .