Термины сопоставление схемы и сопоставление часто используются как синонимы для процесса базы данных . В этой статье мы различаем эти два объекта следующим образом: Сопоставление схемы - это процесс определения того, что два объекта семантически связаны (область применения этой статьи), а сопоставление относится к преобразованиям между объектами. Например, в двух схемах DB1.Student (Name, SSN, Level, Major, Marks) и DB2.Grad-Student (Name, ID, Major, Grades); возможные совпадения: DB1.Student ≈ DB2.Grad-Student; DB1.SSN = DB2.ID и т. Д. И возможные преобразования или сопоставления будут следующими: DB1.Marks в DB2.Grades (100-90 A; 90-80 B: и т. Д.).
Автоматизация этих двух подходов была одной из фундаментальных задач интеграции данных . В общем, невозможно полностью автоматически определить различные соответствия между двумя схемами - в первую очередь из-за различающейся и часто не описанной или документированной семантики двух схем.
Препятствия
Среди прочего, общие проблемы автоматизации сопоставления и сопоставления ранее были классифицированы в [1], особенно для схем реляционных БД; и в [2] - довольно полный список неоднородностей, не ограниченный реляционной моделью, распознающей схематические и семантические различия / гетерогенность. Большинство этих неоднородностей существует потому, что схемы используют разные представления или определения для представления одной и той же информации (конфликты схем); ИЛИ разные выражения, единицы измерения и точность приводят к противоречивым представлениям одних и тех же данных (конфликты данных). [1] Исследования в области сопоставления схем направлены на обеспечение автоматизированной поддержки процесса поиска семантических совпадений между двумя схемами. Этот процесс усложняется из-за неоднородностей на следующих уровнях [3]
- Синтаксическая неоднородность - различия в языке, используемом для представления элементов
- Структурная неоднородность - различия в типах, строении элементов
- Гетерогенность модели / представления - различия в базовых моделях (база данных, онтологии) или их представлениях (пары ключ-значение, реляционные, документ, XML, JSON, тройки, граф, RDF, OWL)
- Семантическая неоднородность - когда один и тот же объект реального мира представлен с использованием разных терминов или наоборот.
Соответствие схемы
Методология
Обсуждает общую методологию для задачи интеграции схемы или задействованных действий. [5] По словам авторов, интеграция просматривается.
- Предварительная интеграция - анализ схем выполняется перед интеграцией для принятия решения о какой-либо политике интеграции. Это определяет выбор схем для интеграции, порядок интеграции и возможное назначение предпочтений для целых схем или частей схем.
- Сравнение схем - Схемы анализируются и сравниваются для определения соответствий между концепциями и выявления возможных конфликтов. Свойства Interschema могут быть обнаружены при сравнении схем.
- Согласование схем - при обнаружении конфликтов предпринимаются усилия по их разрешению, чтобы стало возможным объединение различных схем.
- Слияние и реструктуризация - теперь схемы готовы к наложению, что дает начало некоторым промежуточным интегрированным схемам. Промежуточные результаты анализируются и при необходимости реструктурируются для достижения нескольких желаемых качеств.
Подходы
Подходы к интеграции схемы можно в широком смысле классифицировать как подходы, использующие либо только информацию схемы, либо информацию на уровне схемы и экземпляра. [4] [5]
Устройства сопоставления на уровне схемы учитывают только информацию схемы, но не данные экземпляра. Доступная информация включает обычные свойства элементов схемы, такие как имя, описание, тип данных, типы отношений (часть, является и т. Д.), Ограничения и структура схемы. Работая на уровне элемента (атомарные элементы, такие как атрибуты объектов) или уровня структуры (сопоставление комбинаций элементов, которые появляются вместе в структуре), эти свойства используются для идентификации совпадающих элементов в двух схемах. Языковые или лингвистические сопоставители используют имена и текст (то есть слова или предложения) для поиска семантически похожих элементов схемы. Сопоставители на основе ограничений используют ограничения, часто содержащиеся в схемах. Такие ограничения используются для определения типов данных и диапазонов значений, уникальности, факультативности, типов отношений и мощности и т. Д. Ограничения в двух входных схемах сопоставляются, чтобы определить сходство элементов схемы.
Устройства сопоставления на уровне экземпляра используют данные уровня экземпляра для сбора важной информации о содержании и значении элементов схемы. Обычно они используются в дополнение к сопоставлениям на уровне схемы, чтобы повысить достоверность результатов сопоставления, особенно когда информации, доступной на уровне схемы, недостаточно. Устройства сопоставления на этом уровне используют лингвистическую характеристику и характеристику экземпляров на основе ограничений. Например, используя лингвистические методы, можно было бы взглянуть на экземпляры Dept, DeptName и EmpName, чтобы сделать вывод, что DeptName является лучшим кандидатом на должность Dept, чем EmpName. Такие ограничения, как почтовые индексы, должны состоять из 5 цифр, или формат телефонных номеров может позволить сопоставление таких типов данных экземпляра. [9]
Гибридные сопоставители напрямую комбинируют несколько подходов сопоставления для определения кандидатов на сопоставление на основе нескольких критериев или источников информации. Большинство этих методов также используют дополнительную информацию, такую как словари, тезаурусы и предоставленную пользователем информацию о совпадениях или несоответствиях [10]
Повторное использование информации о сопоставлении Другая инициатива заключалась в повторном использовании предыдущей информации о сопоставлении в качестве вспомогательной информации для будущих задач сопоставления. Мотивация для этой работы заключается в том, что структуры или подструктуры часто повторяются, например, в схемах в домене электронной коммерции. Однако такое повторное использование предыдущих совпадений должно быть осторожным. Возможно, такое повторное использование имеет смысл только для некоторой части новой схемы или только в некоторых доменах. Например, зарплата и доход могут считаться идентичными в приложении для расчета заработной платы, но не в приложении для налоговой отчетности. При таком повторном использовании есть несколько нерешенных проблем, которые заслуживают дальнейшей работы.
Примеры прототипов Как правило, реализация таких методов сопоставления может быть классифицирована как системы, основанные на правилах или на учащихся. Взаимодополняющий характер этих различных подходов побудил ряд приложений использовать комбинацию методов в зависимости от природы рассматриваемой области или приложения. [4] [5]
Выявленные отношения
Типы отношений между объектами, которые идентифицируются в конце процесса сопоставления, обычно имеют заданную семантику, такую как перекрытие, несвязанность, исключение, эквивалентность или подчинение. Логические кодировки этих отношений - вот что они означают. Среди прочего, была представлена ранняя попытка использовать логику описания для интеграции схемы и определения таких отношений. [11] Несколько современных инструментов сопоставления сегодня [4] [7] и те, которые протестированы в рамках Ontology Alignment Evaluation Initiative [12] , способны идентифицировать многие такие простые (1: 1/1: n / n: 1 уровень элементов совпадений) и сложных совпадений (n: 1 / n: m совпадений на уровне элементов или структур) между объектами.
Оценка качества
Качество сопоставления схемы обычно измеряется точностью и полнотой . В то время как точность измеряет количество правильно подобранных пар из всех пар, которые были сопоставлены, отзыв позволяет измерить, сколько фактических пар было сопоставлено.
Смотрите также
Рекомендации
- ^ a b Ким, В. и Со, Дж. (декабрь 1991 г.). «Классификация схем и неоднородностей данных в системах с несколькими базами данных». Компьютер 24, 12 .
- ^ Шет, А.П., Кашьяп, В. (1993). «Так далеко (схематически), но так близко (семантически)». В материалах конференции IFIP WG 2.6 по семантике баз данных по интероперабельным системам баз данных .
- ^ Шет, А.П. (1999). «Смена акцента на совместимость информационных систем: от системы, синтаксиса, структуры к семантике». Во взаимодействующих географических информационных системах. MF Goodchild, MJ Egenhofer, R. Fegeas и CA Kottman (ред.), Kluwer, Academic Publishers .
- ^ а б в г Рам Э. и Бернштейн П. (2001). «Обзор подходов к автоматическому сопоставлению схем». Журнал VLDB 10, 4 .
- ^ а б в г Батини, К., Лензерини, М., и Нават, С.Б. (1986). «Сравнительный анализ методологий интеграции схемы базы данных». ACM Comput. Surv. 18, 4 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Доан А. и Халеви А. (2005). «Семантико-интеграционные исследования в сообществе баз данных». AI Mag. 26, 1 .
- ^ а б Кальфоглу Ю. и Шорлеммер М. (2003). «Отображение онтологий: современное состояние». Знай. Англ. Ред. 18, 1 .
- ^ Чой, Н., Сонг, И., и Хан, Х. (2006). «Обзор по отображению онтологий». SIGMOD Рек. 35, 3 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Перейра Нуньес, Бернардо; Мера, Александр; Казанова, Марко Антонио; П. Паес Леме, Луис Андре; Дитце, Стефан (2013). «Комплексное сопоставление свойств типов данных RDF» . Приложения баз данных и экспертных систем - 24-я международная конференция . Конспект лекций по информатике. 8055 : 195–208. DOI : 10.1007 / 978-3-642-40285-2_18 . ISBN 978-3-642-40284-5.
- ^ Хамдака, Мохаммад; Тахвилдари, Ладан (2014). «Побег из тюрьмы: универсальное решение для решения проблемы привязки поставщика облачных услуг». 8-й Международный симпозиум IEEE по обслуживанию и развитию сервис-ориентированных и облачных систем : 37–46. DOI : 10.1109 / MESOCA.2014.13 . ISBN 978-1-4799-6152-8. S2CID 14499875 .
- ^ Ашока Савасере; Амит П. Шет; Сунит К. Гала; Шамкант Б. Навате; Х. Маркус (1993). «О применении классификации к интеграции схем». RIDE-IMS .
- ^ Инициатива оценки согласования онтологий :: 2006
Внешние ссылки
- Ранняя работа по сопоставлению схемы