Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Семантическая неоднородность - это когда схема базы данных или наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных. [1] Помимо структурированных данных , проблема семантической неоднородности усугубляется гибкостью полуструктурированных данных и различных методов тегирования, применяемых к документам или неструктурированным данным . Семантическая неоднородность - один из наиболее важных источников различий в разнородных наборах данных .

Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантические различия. Разложение различных источников семантической неоднородности обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.

Классификация [ править ]

Одна из первых известных схем классификации, применяемых к семантике данных, была предложена Уильямом Кентом более двух десятилетий назад. [2] Подход Кента касался больше вопросов структурного картирования, чем различий в значениях, которые он указал на словари данных как потенциально решающие.

Одна из наиболее полных классификаций взята из Pluempitiwiriyawej и Hammer, «Схема классификации семантических и схематических неоднородностей в источниках данных XML». [3] Они классифицируют неоднородности на три широких класса:

  • Структурные конфликты возникают, когда схема источников, представляющих связанные или перекрывающиеся данные, демонстрирует несоответствия. Структурные конфликты можно обнаружить при сравнении базовой схемы. Класс структурных конфликтов включает конфликты обобщения, конфликты агрегации, несоответствие внутреннего пути, отсутствующие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
  • Конфликты доменов возникают, когда семантика интегрируемых источников данных обнаруживает несоответствия. Конфликты доменов можно обнаружить, просмотрев информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает несоответствие схем, масштабы или единицы измерения, точность и конфликты представления данных.
  • Конфликты данных относятся к расхождениям между похожими или связанными значениями данных из нескольких источников. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает ID-значение, отсутствующие данные, неправильное написание и конфликты именования между содержимым элемента и значениями атрибутов.

Более того, несовпадения или конфликты могут возникать между элементами набора (несоответствие "совокупности") или атрибутами (несоответствие "описания").

Майкл Бергман расширил эту схему, добавив четвертую главную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, что привело к примерно 40 различным потенциальным категориям [4] . [5] В этой таблице показаны объединенные 40 возможных источников семантической неоднородности в источниках:

Другой подход к классификации семантики и подходов к интеграции используется Sheth et al. [6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика либо присутствует, либо легко извлекается; формальные языки, хотя и относительно немногочисленны, встречаются в форме онтологий или других логик описания ; а мощная (мягкая) семантика нечеткая и не ограничивается жесткими присваиваниями на основе множеств. Основная мысль Шета и др. Состоит в том, что логика первого порядка (FOL) или логика описания неадекватна сама по себе, чтобы должным образом уловить необходимую семантику.

Соответствующие приложения [ править ]

Помимо взаимодействия данных, соответствующие области информационных технологий, которые зависят от согласования семантических неоднородностей, включают , среди прочего, отображение данных , семантическую интеграцию и интеграцию корпоративной информации . От концептуальных до фактических данных существуют различия в перспективах, словарях, показателях и условных обозначениях после объединения любых двух источников данных. Явное внимание к этим семантическим неоднородностям - одно из средств получения информации для интеграции или взаимодействия.

Всего двадцать лет назад информационные системы выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для устранения этих источников различий. Несмотря на то, что существует большое количество категорий семантической неоднородности, эти категории также являются шаблонными, и их можно предвидеть и исправлять. Эти структурированные источники информируют о том, какую работу необходимо проделать, чтобы преодолеть семантические различия, в которых они все еще существуют.

См. Также [ править ]

  • Интеграция данных
  • Отображение данных
  • Интеграция корпоративной информации
  • Гетерогенная система баз данных
  • Совместимость
  • Интеграция данных на основе онтологий
  • Соответствие схемы
  • Семантическая интеграция
  • Семантическое соответствие
  • Семантика

Ссылки [ править ]

  1. Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).
  2. Уильям Кент (27 февраля - 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.
  3. ^ Charnyote Pluempitiwiriyawej и Joachim Молот (сентябрь 2000). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
  4. MK Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3 ::: Адаптивная информация . Проверено 28 сентября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  5. MK Бергман (12 августа 2014 г.). «Большая структура и взаимодействие данных» . AI3 ::: Адаптивная информация . Проверено 28 сентября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  6. ^ Амит П. Шет; Картич Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. DOI : 10,4018 / jswis.2005010101 .

Дальнейшее чтение [ править ]

  • Классификация семантической неоднородности