Запись связи

Связывание записей (также известное как сопоставление данных, разрешение сущностей и многие другие термины) - это задача поиска записей в наборе данных, которые относятся к одной и той же сущности в разных источниках данных (например, файлах данных, книгах, веб-сайтах и базах данных). . Связь записей необходима при объединении различных наборов данных на основе объектов, которые могут иметь или не иметь общий идентификатор (например, ключ базы данных , URI , национальный идентификационный номер ), что может быть связано с различиями в форме записи, месте хранения или стиле куратора. или предпочтение. Набор данных, который прошел согласование с ориентацией на RL, может называться перекрестно связанными.. Связь записей называется связью данных во многих юрисдикциях, но это один и тот же процесс.

Соглашения об именах [ править ]

«Связь записей» - это термин, используемый, среди прочего, статистиками, эпидемиологами и историками для описания процесса объединения записей из одного источника данных с другим, которые описывают одну и ту же сущность. Однако для этого процесса используется много других терминов. К сожалению, такое обилие терминологии привело к небольшому количеству перекрестных ссылок между этими исследовательскими сообществами. ^[1]^[2]

Ученые-компьютерщики часто называют это «сопоставлением данных» или «проблемой идентичности объекта». Коммерческие почтовые приложения и приложения баз данных называют это «обработкой слияния / очистки» или «промывкой списка». Другие имена, используемые для описания той же концепции, включают: «сопоставление / сущность / идентичность / имя / разрешение записи», «устранение неоднозначности / связывание сущности», «нечеткое сопоставление», «обнаружение дубликатов», «дедупликация», «сопоставление записей», » (ссылка) согласование »,« идентификация объекта »,« интеграция данных / информации »и« объединение ». ^[3]

Хотя они имеют схожие имена, связывание записей и связанные данные - это два разных подхода к обработке и структурированию данных. Хотя оба включают идентификацию совпадающих сущностей в разных наборах данных, связь записей стандартно приравнивает «сущности» к человеческим индивидуумам; Напротив, связанные данные основаны на возможности связывания любых веб-ресурсов между наборами данных с использованием, соответственно, более широкой концепции идентификатора, а именно URI .

История [ править ]

Первоначальная идея связи записей восходит к Хэлберту Л. Данну в его статье 1946 года под названием «Связь записей», опубликованной в Американском журнале общественного здравоохранения . ^[4]

Затем Говард Борден Ньюкомб заложил вероятностные основы современной теории связи записей в статье 1959 года в журнале Science . ^[5] Они были формализованы в 1969 году Иваном Феллеги и Аланом Сантером в их новаторской работе «Теория связи записей», где они доказали, что описанное ими вероятностное правило принятия решений было оптимальным, когда атрибуты сравнения были условно независимыми. ^[6] В своей работе они признали растущий интерес к применению достижений в области вычислений и автоматизации к большим коллекциям административных данных , а теория Феллеги-Сантера остается математической основой для многих приложений для связывания записей.

С конца 1990-х годов были разработаны различные методы машинного обучения , которые при благоприятных условиях могут использоваться для оценки условных вероятностей, требуемых теорией Феллеги-Сантера. Некоторые исследователи сообщили, что предположение об условной независимости алгоритма Феллеги-Сантера часто нарушается на практике; однако опубликованные усилия по явному моделированию условных зависимостей между атрибутами сравнения не привели к улучшению качества связи записей. ^{[ необходима цитата ]} С другой стороны, алгоритмы машинного обучения или нейронной сети, которые не полагаются на эти предположения, часто обеспечивают гораздо более высокую точность, когда доступно достаточное количество размеченных обучающих данных. ^[7]

Связывание записей может быть выполнено полностью без помощи компьютера, но основные причины, по которым компьютеры часто используются для завершения связывания записей, заключаются в том, чтобы уменьшить или исключить ручной просмотр и сделать результаты более легко воспроизводимыми. Компьютерное сопоставление имеет преимущества, заключающиеся в централизованном контроле обработки, улучшенном контроле качества, скорости, согласованности и лучшей воспроизводимости результатов. ^[8]

Методы [ править ]

Предварительная обработка данных [ править ]

Связывание записей очень чувствительно к качеству связываемых данных, поэтому все рассматриваемые наборы данных (особенно их поля ключевых идентификаторов) в идеале должны пройти оценку качества данных перед связыванием записей. Многие ключевые идентификаторы для одного и того же объекта могут быть представлены совершенно по-разному в наборах данных (и даже внутри), что может значительно усложнить связывание записей, если их не понять заранее. Например, ключевые идентификаторы человека по имени Уильям Дж. Смит могут появиться в трех разных наборах данных следующим образом:

Набор данных	Имя	Дата рождения	Город проживания
Набор данных 1	Уильям Дж. Смит	1/2/73	Беркли, Калифорния
Набор данных 2	Смит, WJ	1973.1.2	Беркли, Калифорния
Набор данных 3	Билл Смит	02 янв.1973 г.	Беркли, Калифорния.

В этом примере разные стили форматирования приводят к тому, что записи выглядят по-разному, но фактически все относятся к одному и тому же объекту с одинаковыми значениями логических идентификаторов. Большинство, если не все, стратегии связывания записей привели бы к более точному связыванию, если бы эти значения были сначала нормализованы или стандартизированы в согласованный формат (например, все имена - «Фамилия, имя», а все даты - «ГГГГ / ММ / ДД. "). Стандартизация может быть достигнута с помощью простых преобразований данных на основе правил или более сложных процедур, таких как токенизация на основе лексикона и вероятностные скрытые марковские модели. ^[9] Некоторые из пакетов, перечисленных в Программных реализациях Раздел предоставляет некоторые из этих функций, чтобы упростить процесс стандартизации данных.

Разрешение объекта [ править ]

Разрешение сущностей - это процесс оперативного анализа , обычно работающий на базе механизма разрешения сущностей или промежуточного программного обеспечения , посредством которого организации могут подключать разрозненные источники данных с целью понимания возможных совпадений сущностей и неочевидных взаимосвязей между несколькими разрозненными хранилищами данных . Он анализирует всю информацию, относящуюся к отдельным лицам и / или организациям из нескольких источников данных, а затем применяет оценку правдоподобия и вероятности, чтобы определить, какие идентичности совпадают и какие, если таковые имеются, неочевидные отношения существуют между этими идентичностями.

Механизмы разрешения сущностей обычно используются для выявления рисков , мошенничества и конфликтов интересов, но также являются полезными инструментами для использования в рамках требований интеграции данных клиентов (CDI) и управления основными данными (MDM). Типичные варианты использования механизмов разрешения юридических лиц включают выявление террористов, обнаружение страхового мошенничества, соблюдение Закона США о патриотизме, выявление групп организованной преступности и проверку кандидатов.

Например: в разных хранилищах данных - записи сотрудников, данные поставщиков, списки наблюдения и т. Д. - организация может иметь несколько вариантов сущности с именем ABC, которая может быть или не быть одним и тем же лицом. Эти записи могут фактически отображаться как ABC1, ABC2 или ABC3 в этих источниках данных. Сравнивая сходство между базовыми атрибутами, такими как адрес , дата рождения или номер социального страхования , пользователь может исключить некоторые возможные совпадения и подтвердить другие как очень вероятные совпадения.

Затем механизмы разрешения сущностей применяют правила, основанные на логике здравого смысла, для выявления скрытых взаимосвязей между данными. В приведенном выше примере, возможно, ABC1 и ABC2 не одно и то же лицо, а скорее два разных человека, которые имеют общие атрибуты, такие как адрес или номер телефона.

Сопоставление данных [ править ]

Хотя решения по разрешению сущностей включают технологию сопоставления данных, многие предложения по сопоставлению данных не подходят под определение разрешения сущностей. По словам Джона Талберта, директора Центра перспективных исследований UALR в области разрешения сущностей и качества информации , четыре фактора, которые отличают разрешение сущностей от сопоставления данных:

Работает как со структурированными, так и с неструктурированными записями, и влечет за собой процесс извлечения ссылок, когда источники неструктурированы или частично структурированы.
Использует сложные бизнес-правила и концептуальные модели для работы с отсутствующей, противоречивой или поврежденной информацией.
В дополнение к прямому сопоставлению использует несоответствующую, заявленную информацию о связывании (ассоциировании)
Раскрывает неочевидные отношения и сети ассоциаций (то есть кто с кем связан)

В отличие от продуктов для обеспечения качества данных, более мощные механизмы разрешения идентификации также включают механизм правил и рабочий процесс, которые применяют бизнес-аналитику к разрешенным идентификаторам и их отношениям. Эти передовые технологии принимают автоматизированные решения и влияют на бизнес-процессы в режиме реального времени, ограничивая необходимость вмешательства человека.

Детерминированная привязка записей [ править ]

Простейший вид связывания записей, называемый детерминированным или основанным на правилах связыванием записей , генерирует ссылки на основе количества индивидуальных идентификаторов, совпадающих среди доступных наборов данных. ^[10] Считается, что две записи совпадают с помощью процедуры детерминированного связывания записей, если все или некоторые идентификаторы (выше определенного порога) идентичны. Детерминированная связь записей - хороший вариант, когда объекты в наборах данных идентифицируются общим идентификатором или когда есть несколько репрезентативных идентификаторов (например, имя, дата рождения и пол при идентификации человека), качество данных которых является относительно низким. высокая.

В качестве примера рассмотрим два стандартизованных набора данных, набор A и набор B, которые содержат разные биты информации о пациентах в больничной системе. Два набора данных идентифицируют пациентов с помощью различных идентификаторов: номера социального страхования (SSN), имени, даты рождения (DOB), пола и почтового индекса (ZIP). Записи в двух наборах данных (обозначенных столбцом «#») показаны ниже:

Набор данных	#	SSN	Имя	Дата рождения	Секс	ZIP
Установите A	1	000956723	Смит, Уильям	1973/01/02	Мужчина	94701
	2	000956723	Смит, Уильям	1973/01/02	Мужчина	94703
	3	000005555	Джонс, Роберт	1942.08.14	Мужчина	94701
	4	123001234	Сью, Мэри	1972/11/19	женский	94109
Установить B	1	000005555	Джонс, Боб	1942.08.14
Установить B	2		Смит, Билл	1973/01/02	Мужчина	94701

Самая простая детерминированная стратегия связывания записей состояла бы в том, чтобы выбрать один идентификатор, который считается однозначно идентифицирующим, например SSN, и объявить, что записи, имеющие одно и то же значение, идентифицируют одного и того же человека, в то время как записи, не имеющие одинакового значения, идентифицируют разных людей. В этом примере детерминированная связь на основе SSN создаст объекты на основе A1 и A2; A3 и B1; и A4. Хотя A1, A2 и B2 представляют собой одну и ту же сущность, B2 не будет включен в соответствие, потому что в нем отсутствует значение для SSN.

Обработка исключений, таких как отсутствующие идентификаторы, включает создание дополнительных правил связывания записей. Одним из таких правил в случае отсутствия SSN может быть сравнение имени, даты рождения, пола и почтового индекса с другими записями в надежде найти совпадение. В приведенном выше примере это правило по-прежнему не будет соответствовать A1 / A2 с B2, потому что имена все еще немного отличаются: стандартизация поместила имена в правильный формат (Фамилия, Имя), но не смогла распознать "Bill" как псевдоним для " Уильям ". Запуск имен с помощью фонетического алгоритма, такого как Soundex , NYSIIS или метафон, может помочь решить эти типы проблем (хотя он все еще может споткнуться о смене фамилии в результате брака или развода), но тогда B2 будет сопоставляться только с A1, поскольку почтовый индекс в A2 отличается. Таким образом, необходимо создать другое правило, чтобы определить, допустимы ли различия в конкретных идентификаторах (например, почтовый индекс), а какие нет (например, дата рождения).

Как показывает этот пример, даже небольшое снижение качества данных или небольшое увеличение сложности данных может привести к очень большому увеличению количества правил, необходимых для правильного связывания записей. В конце концов, этих правил связывания станет слишком много и они будут взаимосвязаны, чтобы их можно было создавать без помощи специализированных программных инструментов. Кроме того, правила связывания часто зависят от характера наборов данных, которые они призваны связывать вместе. В одном исследовании удалось связать мастер-файл о смерти в системе социального обеспечения с двумя реестрами больниц из Среднего Запада США с использованием SSN, имени, месяца рождения и пола в кодировке NYSIIS, но эти правила могут не работать также с наборами данных из других географических регионов. регионах или с данными, собранными по более молодому населению. ^[11] Таким образом, необходимо непрерывное тестирование этих правил, чтобы гарантировать, что они продолжают функционировать должным образом по мере поступления новых данных в систему и необходимости их связывания. Новые данные, которые демонстрируют характеристики, отличные от первоначально ожидаемых, могут потребовать полной перестройки набора правил связывания записей, что может занять очень много времени и денег.

Вероятностная связь записи [ править ]

Вероятностная связь записей , иногда называемая нечетким соответствием (также вероятностное слияние или нечеткое слияниев контексте слияния баз данных), использует другой подход к проблеме связывания записей, принимая во внимание более широкий диапазон потенциальных идентификаторов, вычисляя веса для каждого идентификатора на основе его предполагаемой способности правильно идентифицировать совпадение или несоответствие, и использование этих весов для расчета вероятности того, что две заданные записи относятся к одному и тому же объекту. Пары записей с вероятностями выше определенного порога считаются совпадениями, а пары с вероятностями ниже другого порога считаются несовпадениями; пары, которые попадают между этими двумя пороговыми значениями, считаются «возможными совпадениями» и могут обрабатываться соответствующим образом (например, проверенные человеком, связанные или несвязанные, в зависимости от требований).В то время как для детерминированного связывания записей требуется заранее запрограммировать ряд потенциально сложных правил, вероятностные методы связывания записей можно «обучить», чтобы они работали хорошо при гораздо меньшем вмешательстве человека.

Многие алгоритмы вероятностного связывания записей присваивают идентификаторам веса совпадения / несоответствия с помощью двух вероятностей, называемых u и m . У вероятности есть вероятность того, что идентификатор в двух несовпадающих записях согласится чисто случайно. Например, вероятность u для месяца рождения (где имеется двенадцать значений, которые приблизительно равномерно распределены) составляет 1/12 ≈ 0,083; идентификаторы со значениями, которые не распределены равномерно, будут иметь разные вероятности u для разных значений (возможно, включая пропущенные значения). М вероятность того, есть вероятность того, что идентификатор в согласованиипары будут совпадать (или быть достаточно похожими, например, струны с малым расстоянием Яро-Винклера или Левенштейна ). Это значение будет 1,0 в случае точных данных, но, учитывая, что это редко (если вообще когда-либо) верно, его можно оценить. Эта оценка может быть сделана на основе предварительных знаний о наборах данных, путем ручной идентификации большого количества совпадающих и несовпадающих пар для «обучения» вероятностного алгоритма связи записей или путем итеративного выполнения алгоритма для получения более точных оценок m вероятность. Если бы для вероятности m нужно было оценить значение 0,95 , то веса совпадения / несоответствия для идентификатора месяца рождения были бы такими:

Исход	Доля ссылок	Доля не связанных ссылок	Соотношение частот	Масса
Матч	м = 0,95	u ≈ 0,083	м / ед ≈ 11,4	ln ( m / u ) / ln (2) ≈ 3,51
Несовпадение	1− м = 0,05	1- и ≈ 0,917	(1- м ) / (1- и ) ≈ 0,0545	ln ((1- м ) / (1- u )) / ln (2) ≈ -4,20

Такие же вычисления будут выполнены для всех других рассматриваемых идентификаторов, чтобы найти их веса совпадения / несоответствия. Затем каждый идентификатор одной записи будет сравниваться с соответствующим идентификатором другой записи, чтобы вычислить общий вес пары: вес совпадения добавляется к промежуточной сумме всякий раз, когда пара идентификаторов согласуется, в то время как вес несовпадения добавляется. (т.е. промежуточная сумма уменьшается) всякий раз, когда пара идентификаторов расходится. Полученный общий вес затем сравнивается с вышеупомянутыми пороговыми значениями, чтобы определить, должна ли пара быть связана, не связана или отложена для особого рассмотрения (например, ручная проверка). ^[12]

Определение того, где установить пороговые значения соответствия / несоответствия, является балансирующим действием между получением приемлемой чувствительности (или отзыва , доли действительно совпадающих записей, которые связаны алгоритмом) и положительного прогнозного значения (или точности , доли связанных записей. по алгоритму, который действительно соответствует). Доступны различные ручные и автоматизированные методы для прогнозирования наилучших пороговых значений, а некоторые программные пакеты для связывания записей имеют встроенные инструменты, помогающие пользователю найти наиболее приемлемые значения. Поскольку это может быть очень требовательной к вычислениям задачей, особенно для больших наборов данных, метод, известный как блокировкачасто используется для повышения эффективности. Блокировка пытается ограничить сравнения только теми записями, для которых совпадают один или несколько особенно различающих идентификаторов, что приводит к увеличению положительной прогностической ценности (точности) за счет чувствительности (отзыва). ^[12] Например, блокировка на основе фонетически закодированной фамилии и почтового индекса уменьшит общее количество требуемых сравнений и повысит шансы на то, что связанные записи будут правильными (поскольку два идентификатора уже согласованы), но потенциально может пропустить записи, относящиеся к одному и тому же человеку. чья фамилия или почтовый индекс были другими (например, из-за брака или переезда). Блокировка на основе месяца рождения, более стабильного идентификатора, который, как ожидается, изменится только в случае ошибки данных, обеспечит более скромный выигрыш в положительной прогностической ценности и потере чувствительности, но создаст только двенадцать отдельных групп, которые для чрезвычайно большие наборы данных, возможно, не принесут существенного улучшения скорости вычислений. Таким образом,Надежные системы связи записей часто используют несколько блокирующих проходов для группировки данных различными способами, чтобы создать группы записей, которые следует сравнивать друг с другом.

Машинное обучение [ править ]

В последние годы для связывания записей использовались различные методы машинного обучения. Было признано ^[7], что классический алгоритм вероятностного связывания записей, описанный выше, эквивалентен наивному алгоритму Байеса в области машинного обучения ^[13] и страдает от того же предположения о независимости его функций (предположение, что обычно не соответствует действительности). ^[14]^[15] Более высокая точность часто может быть достигнута с помощью различных других методов машинного обучения, включая однослойный перцептрон . ^[7] В сочетании с распределенными технологиями ^[16] точность и масштаб для связи записей могут быть дополнительно улучшены.

Математическая модель [ править ]

В приложении с двумя файлами, A и B, обозначьте строки ( записи ) в файле A и в файле B. Назначьте характеристики каждой записи. Набор записей, представляющих идентичные сущности, определяется ${\ Displaystyle \ альфа (а)}$ ${\ Displaystyle \ бета (б)}$ ${\ displaystyle K}$

${\ Displaystyle M = \ left \ {(a, b); a = b; a \ in A; b \ in B \ right \}}$

а дополнение набора , а именно набор, представляющий различные объекты, определяется как ${\ displaystyle M}$ ${\ displaystyle U}$

${\ Displaystyle U = \ {(a, b); a \ neq b; a \ in A; b \ in B \}}$ .

Определен вектор, содержащий закодированные соглашения и разногласия по каждой характеристике: ${\ displaystyle \ gamma}$

${\ Displaystyle \ гамма \ влево [\ альфа (а), \ бета (б) \ вправо] = \ {\ гамма ^ {1} \ влево [\ альфа (а), \ бета (б) \ вправо]. .., \ gamma ^ {K} \ left [\ alpha (a), \ beta (b) \ right] \}}$

где - индекс для характеристик (пол, возраст, семейное положение и т. д.) в файлах. Условные вероятности наблюдения конкретного вектора заданного , определяются как ${\ displaystyle K}$ ${\ displaystyle \ gamma}$ ${\ displaystyle (a, b) \ in M}$ ${\ displaystyle (a, b) \ in U}$

${\ Displaystyle м (\ гамма) = п \ влево \ {\ гамма \ влево [\ альфа (а), \ бета (б) \ вправо] | (а, б) \ в М \ вправо \} = \ сумма _ {(a, b) \ in M} P \ left \ {\ gamma \ left [\ alpha (a), \ beta (b) \ right] \ right \} \ cdot P \ left [(a, b) | M \ right]}$

а также

$u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right],$ соответственно. ^[6]

Приложения [ править ]

Управление основными данными [ править ]

Большинство продуктов для управления основными данными (MDM) используют процесс связывания записей для идентификации записей из разных источников, представляющих одну и ту же реальную сущность. Эта связь используется для создания «золотой основной записи», содержащей очищенные и согласованные данные об объекте. Методы, используемые в MDM, такие же, как и для связывания записей в целом. MDM расширяет это сопоставление не только для создания «золотой основной записи», но и для вывода взаимосвязей. (т. е. у человека одинаковая / похожая фамилия и одинаковый / похожий адрес, это может означать, что у него есть семейные отношения).

Хранилища данных и бизнес-аналитика [ править ]

Связь с записями играет ключевую роль в хранилищах данных и бизнес-аналитике . Хранилища данных служат для объединения данных из множества различных операционных систем в одну логическую модель данных , которую затем можно передать в систему бизнес-аналитики для отчетности и аналитики. Каждая операционная исходная система может иметь свой собственный метод идентификации одних и тех же объектов, используемых в логической модели данных, поэтому становится необходимой связь записей между различными источниками, чтобы гарантировать, что информацию о конкретном объекте в одной исходной системе можно легко сравнить с информацией о тот же объект из другой исходной системы. Стандартизация данных и последующее связывание записей часто происходят в части «преобразования»процесс извлечения, преобразования, загрузки (ETL).

Историческое исследование [ править ]

Связь с записями важна для исследования социальной истории, поскольку большинство наборов данных, таких как записи переписи и приходские книги, были зарегистрированы задолго до изобретения национальных идентификационных номеров . Когда старые источники оцифровываются, связывание наборов данных является предпосылкой для лонгитюдного исследования . Этот процесс часто еще больше усложняется из-за отсутствия стандартного написания имен, фамилий, которые меняются в зависимости от места проживания, изменения административных границ и проблем с проверкой данных по другим источникам. Связь записей была одной из самых ярких тем в истории и вычислительной технике в 1980-х годах, но с тех пор ей уделялось меньше внимания в исследованиях. ^{[ необходима цитата ]}

Медицинская практика и исследования [ править ]

Связь с записями - важный инструмент в создании данных, необходимых для изучения здоровья населения и самой системы здравоохранения. Его можно использовать для улучшения хранения данных, сбора данных, оценки качества и распространения информации. Источники данных могут быть изучены для устранения дублирующих записей, выявления случаев неполной отчетности и пропущенных случаев (например, подсчет населения при переписи населения), для создания статистики здоровья, ориентированной на человека, и для создания реестров заболеваний и систем наблюдения за здоровьем. Некоторые реестры рака связывают различные источники данных (например, данные о госпитализации, патологии и клинические отчеты, а также регистрации смертей) для создания своих реестров. Связь с записями также используется для создания индикаторов состояния. Например, внутриутробная и младенческая смертность - это общий показатель социально-экономического развития страны, общественного здоровья,и услуги по охране здоровья матери и ребенка. Если записи о младенческой смерти сопоставляются с записями о рождении, можно использовать переменные рождения, такие как вес при рождении и гестационный возраст, наряду с данными о смертности, такими как причина смерти, при анализе данных. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или результаты для здоровья. Отслеживание часто требуется для последующего наблюдения за промышленными когортами, клиническими испытаниями и лонгитюдными опросами для выяснения причины смерти и / или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, являетсянапример, причина смерти при анализе данных. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или результаты для здоровья. Отслеживание часто требуется для последующего наблюдения за промышленными когортами, клиническими испытаниями и лонгитюдными опросами для выяснения причины смерти и / или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, являетсянапример, причина смерти при анализе данных. Связи могут помочь в последующих исследованиях когорт или других групп для определения таких факторов, как жизненный статус, статус проживания или результаты для здоровья. Отслеживание часто требуется для последующего наблюдения за промышленными когортами, клиническими испытаниями и лонгитюдными опросами для выяснения причины смерти и / или рака. Примером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, являетсяПримером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, являетсяПримером успешной и давней системы связи записей, позволяющей проводить медицинские исследования среди населения, являетсяРочестерский эпидемиологический проект, базирующийся в Рочестере, штат Миннесота . ^[17]

Критика существующих программных реализаций [ править ]

Приводятся следующие основные причины: ^{[ необходима цитата ]}

Стоимость проекта : обычно стоит сотни тысяч долларов.
Время : не хватает времени, чтобы заняться крупномасштабным программным обеспечением для очистки данных
Безопасность : проблемы с обменом информацией, предоставлением доступа приложениям между системами и последствиями для устаревших систем.
Масштабируемость : из-за отсутствия уникальных идентификаторов в записях связывание записей требует больших вычислительных ресурсов и трудностей для масштабирования. ^[18]
Точность : изменение бизнес-данных и сбор всех правил для связывания - сложная и обширная задача.

См. Также [ править ]

Оптимизация мощности
Контент-адресное хранилище
Дедупликация данных
Дельта-кодирование
Связывание сущностей
Модель сущность-атрибут-значение
Разрешение личности
Связанные данные
Признание именной организации
Открытые данные
Соответствие схемы
Одноэкземплярное хранилище
Имя автора Значение

Примечания и ссылки [ править ]

^ Cristen, P&T: Febrl - Свободно расширяемая связь биомедицинских записей (Руководство, выпуск 0.3) стр.9
^ Эльмагармид, Ахмед; Панайотис Г. Ипейротис; Василиос Верикиос (январь 2007 г.). «Обнаружение повторяющихся записей: обзор» (PDF) . IEEE Transactions по разработке знаний и данных . 19 (1): стр. 1–16. DOI : 10,1109 / tkde.2007.250581 . S2CID 386036 . Проверено 30 марта 2009 .
^ http://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf
^ Dunn, Halbert L. (декабрь 1946). «Запись связи» (PDF) . Американский журнал общественного здравоохранения . 36 (12): стр. 1412–1416. DOI : 10,2105 / AJPH.36.12.1412 . PMC 1624512 . PMID 18016455 . Проверено 31 мая 2008 .
^ Ньюкомб, HB; Дж. М. Кеннеди; SJ Axford; А. П. Джеймс (октябрь 1959 г.). «Автоматическая привязка основных записей». Наука . 130 (3381): 954–959. DOI : 10.1126 / science.130.3381.954 . PMID 14426783 .
^ a b Феллеги, Иван ; Сантер, Алан (декабрь 1969 г.). «Теория связи записей» (PDF) . Журнал Американской статистической ассоциации . 64 (328): С. 1183–1210. DOI : 10.2307 / 2286061 . JSTOR 2286061 .
^ a b c Уилсон, Д. Рэндалл, Д. Рэндалл (31 июля - 5 августа 2011 г.). Помимо вероятностной связи записей: использование нейронных сетей и сложных функций для улучшения генеалогической связи записей (PDF) . Труды международной совместной конференции по нейронным сетям. Сан-Хосе, Калифорния, США.
^ Винклер, Уильям Э. «Сопоставление и связь записи» (PDF) . Бюро переписи населения США . Проверено 12 ноября 2011 года .
^ Церкви, Тим; Питер Кристен; Ким Лим; Джастин Си Чжу (13 декабря 2002 г.). «Подготовка именных и адресных данных для связывания записей с использованием скрытых марковских моделей» . BMC Медицинская информатика и принятие решений . 2 : 9. дои : 10,1186 / 1472-6947-2-9 . PMC 140019 . PMID 12482326 .
^ Роос, LL; Вайда А. (апрель 1991 г.). «Запишите стратегии связи. Часть I: Оценка информации и подходы к оценке». Методы информации в медицине . 30 (2): 117–123. DOI : 10,1055 / с-0038-1634828 . PMID 1857246 .
^ Граннис, SJ; Overhage JM; Макдональд CJ (2002). «Анализ производительности идентификатора с использованием детерминированного алгоритма связывания» . Proc AMIA Symp. : 305–9. PMC 2244404 . PMID 12463836 .
^ a b Блейкли, Тони; Салмонд, Клэр (декабрь 2002 г.). «Вероятностная связь записи и метод расчета положительной прогнозной ценности» . Международный журнал эпидемиологии . 31 (6): 1246–1252. DOI : 10.1093 / ije / 31.6.1246 . PMID 12540730 .
^ Квас, Даллан и Старки, Пол. « Связь записей для генеалогических баз данных », семинар ACM SIGKDD '03 по очистке данных, связыванию записей и консолидации объектов, 24–27 августа 2003 г., Вашингтон, округ Колумбия
↑ Лэнгли, Пэт, Уэйн Иба и Кевин Томпсон. « Анализ байесовских классификаторов », в материалах 10-й национальной конференции по искусственному интеллекту (AAAI-92), AAAI Press / MIT Press, Кембридж, Массачусетс, стр. 223-228, 1992.
^ Мичи, Д., Д. Шпигельхальтер и К. Тейлор. Машинное обучение, нейронная и статистическая классификация, Эллис Хорвуд, Хартфордшир, Англия. Книга 19, 1994.
^ «Нечеткое соответствие с искрой» . Саммит Spark.
^ Санкт-Совер JL; Grossardt BR; Зевать БП; Мелтон LJ 3-й; Панкрац JJ; Брю С.М.; Рокка WA (2012). «Профиль ресурсов данных: система связи медицинских записей Рочестерского эпидемиологического проекта (REP)» . Int J Epidemiol . 41 (6): 1614–24. DOI : 10.1093 / ije / dys195 . PMC 3535751 . PMID 23159830 .
^ https://observablehq.com/@nubetech/entity-resolution-at-scale

Внешние ссылки [ править ]

Проект передачи данных в Пенсильвании, США
Стэнфордская система разрешения проблем юридических лиц
Dedoop - дедупликация с помощью Hadoop
BlockingFramework Платформа для разрешения сущностей на основе блокировки
Интерактивная связь с записями с улучшенной конфиденциальностью в Техасском университете A&M

[1] Cristen, P&T: Febrl - Свободно расширяемая связь биомедицинских записей (Руководство, выпуск 0.3) стр.9

[2] Эльмагармид, Ахмед; Панайотис Г. Ипейротис; Василиос Верикиос (январь 2007 г.). «Обнаружение повторяющихся записей: обзор» (PDF) . IEEE Transactions по разработке знаний и данных . 19 (1): стр. 1–16. DOI : 10,1109 / tkde.2007.250581 . S2CID 386036 . Проверено 30 марта 2009 .

[3] ttp://homes.cs.washington.edu/~pedrod/papers/icdm06.pdf

[4] Dunn, Halbert L. (декабрь 1946). «Запись связи» (PDF) . Американский журнал общественного здравоохранения . 36 (12): стр. 1412–1416. DOI : 10,2105 / AJPH.36.12.1412 . PMC 1624512 . PMID 18016455 . Проверено 31 мая 2008 .

[5] Ньюкомб, HB; Дж. М. Кеннеди; SJ Axford; А. П. Джеймс (октябрь 1959 г.). «Автоматическая привязка основных записей». Наука . 130 (3381): 954–959. DOI : 10.1126 / science.130.3381.954 . PMID 14426783 .

[FellegiSunter-6] Феллеги, Иван ; Сантер, Алан (декабрь 1969 г.). «Теория связи записей» (PDF) . Журнал Американской статистической ассоциации . 64 (328): С. 1183–1210. DOI : 10.2307 / 2286061 . JSTOR 2286061 .

[ReferenceA-7] Уилсон, Д. Рэндалл, Д. Рэндалл (31 июля - 5 августа 2011 г.). Помимо вероятностной связи записей: использование нейронных сетей и сложных функций для улучшения генеалогической связи записей (PDF) . Труды международной совместной конференции по нейронным сетям. Сан-Хосе, Калифорния, США.

[8] Винклер, Уильям Э. «Сопоставление и связь записи» (PDF) . Бюро переписи населения США . Проверено 12 ноября 2011 года .

[9] Церкви, Тим; Питер Кристен; Ким Лим; Джастин Си Чжу (13 декабря 2002 г.). «Подготовка именных и адресных данных для связывания записей с использованием скрытых марковских моделей» . BMC Медицинская информатика и принятие решений . 2 : 9. дои : 10,1186 / 1472-6947-2-9 . PMC 140019 . PMID 12482326 .

[10] Роос, LL; Вайда А. (апрель 1991 г.). «Запишите стратегии связи. Часть I: Оценка информации и подходы к оценке». Методы информации в медицине . 30 (2): 117–123. DOI : 10,1055 / с-0038-1634828 . PMID 1857246 .

[11] Граннис, SJ; Overhage JM; Макдональд CJ (2002). «Анализ производительности идентификатора с использованием детерминированного алгоритма связывания» . Proc AMIA Symp. : 305–9. PMC 2244404 . PMID 12463836 .

[prl-12] Блейкли, Тони; Салмонд, Клэр (декабрь 2002 г.). «Вероятностная связь записи и метод расчета положительной прогнозной ценности» . Международный журнал эпидемиологии . 31 (6): 1246–1252. DOI : 10.1093 / ije / 31.6.1246 . PMID 12540730 .

[13] Квас, Даллан и Старки, Пол. « Связь записей для генеалогических баз данных », семинар ACM SIGKDD '03 по очистке данных, связыванию записей и консолидации объектов, 24–27 августа 2003 г., Вашингтон, округ Колумбия

[14] Лэнгли, Пэт, Уэйн Иба и Кевин Томпсон. « Анализ байесовских классификаторов », в материалах 10-й национальной конференции по искусственному интеллекту (AAAI-92), AAAI Press / MIT Press, Кембридж, Массачусетс, стр. 223-228, 1992.

[15] Мичи, Д., Д. Шпигельхальтер и К. Тейлор. Машинное обучение, нейронная и статистическая классификация, Эллис Хорвуд, Хартфордшир, Англия. Книга 19, 1994.

[spark-16] «Нечеткое соответствие с искрой» . Саммит Spark.

[data_resource_profile-17] Санкт-Совер JL; Grossardt BR; Зевать БП; Мелтон LJ 3-й; Панкрац JJ; Брю С.М.; Рокка WA (2012). «Профиль ресурсов данных: система связи медицинских записей Рочестерского эпидемиологического проекта (REP)» . Int J Epidemiol . 41 (6): 1614–24. DOI : 10.1093 / ije / dys195 . PMC 3535751 . PMID 23159830 .

[18] ttps://observablehq.com/@nubetech/entity-resolution-at-scale

[1]