Семантическая неоднородность - это когда схема базы данных или наборы данных для одного и того же домена разрабатываются независимыми сторонами, что приводит к различиям в значении и интерпретации значений данных. [1] Помимо структурированных данных , проблема семантической неоднородности усугубляется гибкостью полуструктурированных данных и различных методов тегирования, применяемых к документам или неструктурированным данным . Семантическая неоднородность - один из наиболее важных источников различий в разнородных наборах данных .
Тем не менее, чтобы несколько источников данных могли взаимодействовать друг с другом, важно согласовать эти семантические различия. Разложение различных источников семантической неоднородности обеспечивает основу для понимания того, как отображать и преобразовывать данные для преодоления этих различий.
Классификация [ править ]
Одна из первых известных схем классификации, применяемых к семантике данных, была предложена Уильямом Кентом более двух десятилетий назад. [2] Подход Кента касался больше вопросов структурного картирования, чем различий в значениях, которые он указал на словари данных как потенциально решающие.
Одна из наиболее полных классификаций взята из Pluempitiwiriyawej и Hammer, «Схема классификации семантических и схематических неоднородностей в источниках данных XML». [3] Они классифицируют неоднородности на три широких класса:
- Структурные конфликты возникают, когда схема источников, представляющих связанные или перекрывающиеся данные, демонстрирует несоответствия. Структурные конфликты можно обнаружить при сравнении базовой схемы. Класс структурных конфликтов включает конфликты обобщения, конфликты агрегации, несоответствие внутреннего пути, отсутствующие элементы, порядок элементов, несоответствие ограничений и типов, а также конфликты именования между типами элементов и именами атрибутов.
- Конфликты доменов возникают, когда семантика интегрируемых источников данных обнаруживает несоответствия. Конфликты доменов можно обнаружить, просмотрев информацию, содержащуюся в схеме, и используя знания о базовых доменах данных. Класс конфликтов предметной области включает несоответствие схем, масштабы или единицы измерения, точность и конфликты представления данных.
- Конфликты данных относятся к расхождениям между похожими или связанными значениями данных из нескольких источников. Конфликты данных можно обнаружить только путем сравнения основных источников. Класс конфликтов данных включает ID-значение, отсутствующие данные, неправильное написание и конфликты именования между содержимым элемента и значениями атрибутов.
Более того, несовпадения или конфликты могут возникать между элементами набора (несоответствие "совокупности") или атрибутами (несоответствие "описания").
Майкл Бергман расширил эту схему, добавив четвертую главную явную категорию языка, а также добавил несколько примеров каждого вида семантической неоднородности, что привело к примерно 40 различным потенциальным категориям [4] . [5] В этой таблице показаны объединенные 40 возможных источников семантической неоднородности в источниках:
Класс | Категория | Подкатегория | Примеры |
Несоответствие кодировки загрузки | |||
Отсутствие кодировки загрузки | Неправильное распознавание токенов из-за того, что они не анализируются с использованием правильной кодировки | ||
Несоответствие кодировки запроса | Например, ASCII v UTF-8 в поиске | ||
Отсутствие кодировки запросов | Неправильное распознавание маркеров поиска из-за того, что они не анализируются с использованием правильной кодировки | ||
Языки | Несоответствие скрипта | Варианты того, как парсеры обрабатывают, например, выделение корней, пробелы или дефисы | |
Ошибки синтаксического анализа / морфологического анализа (много) | Арабские языки (справа налево) v Романские языки (слева направо) | ||
Синтаксические ошибки (много) | Отсылки к неоднозначным предложениям, например, я рад, что я мужчина, и Лола тоже (« Лола » Рэя Дэвиса и « Кинкс» ) | ||
Семантические ошибки (много) | Речной банк v денежный банк v бильярдный банк выстрел | ||
Концептуальный | Именование | Чувствительность к регистру | Прописные v нижний регистр v случай Camel |
США v США v Америка v Дядя Сэм v Великий Сатана | |||
США - США - США | |||
Например, когда одно и то же имя относится к более чем одному понятию, например, Имя относится к человеку v Имя относится к книге | |||
Орфографические ошибки | Как указано | ||
Обобщение / Специализация | Когда отдельные элементы в одной схеме связаны с несколькими элементами в другой схеме или наоборот. Например, одна схема может относиться к «телефону», но другая схема имеет несколько элементов, таких как «домашний телефон», «рабочий телефон» и «сотовый телефон». | ||
Агрегирование | Внутриагрегация | Когда одно и то же население делится по-разному (например, перепись v Федеральные регионы для штатов, Англия v Великобритания v Соединенное Королевство или полные имена людей v первое-среднее-последнее) | |
Взаимное агрегирование | Может произойти, когда суммы или числа включены в качестве членов набора | ||
Несоответствие внутреннего пути | Может возникать из разных путей извлечения источник-цель в двух разных схемах (например, иерархические структуры, в которых элементы имеют разные уровни удаления) | ||
Отсутствует пункт | Несоответствие содержания | Различия в перечислениях наборов или включение или отсутствие элементов (например, территории США) в списке штатов США | |
Отсутствующий контент | Различия в охвате двух или более наборов данных для одной и той же концепции | ||
Несоответствие в списке атрибутов | Различия в полноте атрибутов между двумя или более наборами данных | ||
Отсутствующий атрибут | Различия в охвате двух или более наборов данных для одного и того же атрибута | ||
Эквивалентность предметов | Когда два типа (классы или множества) утверждаются как одинаковые, когда область действия и ссылка не являются (например, Берлин - город v Берлин - официальный город-государство) | ||
Когда два человека , которые утверждают, что она так же , когда они на самом деле различны (например, Джон Ф. Кеннеди президент v Джон Ф. Кеннеди авианосец) | |||
Несоответствие типов | Когда один и тот же предмет характеризуется разными типами, например, человек обозначен как животное v человек v человек | ||
Несоответствие ограничений | Когда атрибуты, относящиеся к одному и тому же предмету, имеют разную мощность или утверждения о несвязности | ||
Схематическое несоответствие | Отображение значения элемента в метку элемента | Одна из четырех ошибок, которые могут возникнуть, когда имена атрибутов (например, Hair v Fur) могут относиться к одному и тому же атрибуту, или когда одни и те же имена атрибутов (например, Hair v Hair) могут относиться к разным областям атрибутов (скажем, Hair v Fur) или где значения для этих атрибутов могут быть одинаковыми, но относятся к разным фактическим атрибутам, или где значения могут отличаться, но относиться к одному и тому же атрибуту и предполагаемому значению. Многие из других семантических неоднородностей здесь также способствуют несоответствиям схемы. | |
Значение атрибута для сопоставления метки элемента | |||
Сопоставление значения элемента и метки атрибута | |||
Значение атрибута для сопоставления метки атрибута | |||
Масштаб или единицы | Тип измерения | Различия, скажем, в метрической и английской системах измерения или валютах. | |
Единицы измерения | Разница, скажем, в метрах v сантиметрах v миллиметрах | ||
Точность | Например, значение 4,1 дюйма в одном наборе данных против 4.106 в другом наборе данных. | ||
Примитивный тип данных | Часто возникает путаница при использовании литералов v URI v типов объектов | ||
Формат данных | Разделение десятичных знаков точкой v запятыми; различные форматы даты; с использованием экспонент или агрегированных единиц (например, тысячи или миллионы) | ||
Именование | Чувствительность к регистру | Прописные v нижний регистр v случай Camel | |
Синонимы | Например, сантиметры v см. | ||
Аббревиатуры | Например, символы валюты v названия валют | ||
Омонимы | Например, когда одно и то же имя относится к более чем одному атрибуту, например, Имя относится к человеку v Имя относится к книге | ||
Орфографические ошибки | Как указано | ||
Несовпадение или отсутствие идентификатора | Здесь URI могут быть особой проблемой из-за фактического несоответствия, но также из-за использования пространств имен или нет и усеченных URI | ||
Потерянная информация | Распространенная проблема, более острая при подходах к закрытому миру, чем к подходам открытого мира. | ||
Порядок элементов | Члены набора могут быть упорядоченными или неупорядоченными, и если они упорядочены, последовательности отдельных элементов или значений могут различаться. |
Другой подход к классификации семантики и подходов к интеграции используется Sheth et al. [6] Согласно своей концепции, они разделяют семантику на три формы: неявную, формальную и мощную. Неявная семантика либо присутствует, либо легко извлекается; формальные языки, хотя и относительно немногочисленны, встречаются в форме онтологий или других логик описания ; а мощная (мягкая) семантика нечеткая и не ограничивается жесткими присваиваниями на основе множеств. Основная мысль Шета и др. Состоит в том, что логика первого порядка (FOL) или логика описания неадекватна сама по себе, чтобы должным образом уловить необходимую семантику.
Соответствующие приложения [ править ]
Помимо взаимодействия данных, соответствующие области информационных технологий, которые зависят от согласования семантических неоднородностей, включают , среди прочего, отображение данных , семантическую интеграцию и интеграцию корпоративной информации . От концептуальных до фактических данных существуют различия в перспективах, словарях, показателях и условных обозначениях после объединения любых двух источников данных. Явное внимание к этим семантическим неоднородностям - одно из средств получения информации для интеграции или взаимодействия.
Всего двадцать лет назад информационные системы выражали и хранили данные во множестве форматов и систем. Интернет и веб-протоколы многое сделали для устранения этих источников различий. Несмотря на то, что существует большое количество категорий семантической неоднородности, эти категории также являются шаблонными, и их можно предвидеть и исправлять. Эти структурированные источники информируют о том, какую работу необходимо проделать, чтобы преодолеть семантические различия, в которых они все еще существуют.
См. Также [ править ]
- Интеграция данных
- Отображение данных
- Интеграция корпоративной информации
- Гетерогенная система баз данных
- Совместимость
- Интеграция данных на основе онтологий
- Соответствие схемы
- Семантическая интеграция
- Семантическое соответствие
- Семантика
Ссылки [ править ]
- ↑ Алон Халеви (2005). «Почему ваши данные не смешиваются» . Очередь . 3 (8).
- ↑ Уильям Кент (27 февраля - 3 марта 1989 г.). Множество форм одного факта . Труды IEEE COMPCON. Сан-Франциско. 13 стр.
- ^ Charnyote Pluempitiwiriyawej и Joachim Молот (сентябрь 2000). «Схема классификации семантических и схематических неоднородностей в источниках данных XML» (PDF) . Гейнсвилл, Флорида: Университет Флориды. Технический отчет TR00-004.
- ↑ MK Бергман (6 июня 2006 г.). «Источники и классификация семантических неоднородностей» . AI3 ::: Адаптивная информация . Проверено 28 сентября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
- ↑ MK Бергман (12 августа 2014 г.). «Большая структура и взаимодействие данных» . AI3 ::: Адаптивная информация . Проверено 28 сентября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ Амит П. Шет; Картич Рамакришнан; Кристофер Томас (2005). «Семантика семантической сети: неявное, формальное и мощное» . Международный журнал по семантической сети и информационным системам . 1 (1): 1–18. DOI : 10,4018 / jswis.2005010101 .
Дальнейшее чтение [ править ]
- Классификация семантической неоднородности