Отображение данных

В вычислительных и управлении данным , отображение данных представляет собой процесс создания элементов данных отображения между двумя различными моделями данных . Отображение данных используется в качестве первого шага для решения широкого круга задач интеграции данных , в том числе: ^[1]

Преобразование данных или передача данных между источником данных и местом назначения
Идентификация отношений данных как часть анализа происхождения данных
Обнаружение скрытых конфиденциальных данных , такие , как последние четыре цифры номера социального обеспечения , скрытый в другом идентификаторе пользователя как часть маскирования данных или де-идентификации проект
Консолидация нескольких баз данных в единую базу данных и определение избыточных столбцов данных для консолидации или удаления

Например, компания, которая хотела бы передавать и получать покупки и счета-фактуры с другими компаниями, может использовать отображение данных для создания карт данных из данных компании в стандартизированные сообщения ANSI ASC X12 для таких элементов, как заказы на покупку и счета-фактуры.

Стандарты

Стандарты X12 - это общие стандарты электронного обмена данными (EDI), разработанные, чтобы позволить компании обмениваться данными с любой другой компанией, независимо от отрасли. Стандарты поддерживаются Аккредитованным комитетом по стандартам X12 (ASC X12) и Американским национальным институтом стандартов (ANSI), аккредитованным для установления стандартов для EDI. Стандарты X12 часто называют стандартами ANSI ASC X12 .

В будущем инструменты, основанные на языках семантической паутины, такие как Resource Description Framework (RDF), Web Ontology Language (OWL) и стандартизированный реестр метаданных , сделают отображение данных более автоматическим процессом. Этот процесс будет ускорен, если каждое приложение будет выполнять публикацию метаданных . Полностью автоматизированное отображение данных - очень сложная задача (см. Семантический перевод ).

Написанное вручную графическое руководство

Сопоставления данных могут выполняться различными способами с использованием процедурного кода, создания преобразований XSLT или с помощью инструментов графического сопоставления, которые автоматически создают исполняемые программы преобразования. Это графические инструменты, которые позволяют пользователю «рисовать» линии от полей одного набора данных к полям другого. Некоторые графические инструменты отображения данных позволяют пользователям «автоматически соединять» источник и место назначения. Эта функция зависит от того, совпадают ли имена элементов данных источника и назначения . Программы преобразования автоматически создаются на SQL, XSLT, языке программирования Java или C ++ . Эти виды графических инструментов присутствуют в большинстве инструментов ETL (извлечение, преобразование и загрузка) в качестве основных средств ввода карт данных для поддержки перемещения данных. Примеры включают SAP BODS и Informatica PowerCenter.

Картирование на основе данных

Это новейший подход к отображению данных, который включает одновременную оценку фактических значений данных в двух источниках данных с использованием эвристики и статистики для автоматического обнаружения сложных сопоставлений между двумя наборами данных. Этот подход используется для поиска преобразований между двумя наборами данных, обнаружения подстрок, конкатенации, арифметики , операторов case, а также других видов логики преобразования. Этот подход также обнаруживает исключения данных, которые не соответствуют обнаруженной логике преобразования.

Семантическое отображение

Семантическое сопоставление похоже на функцию автоматического подключения средств сопоставления данных за исключением того, что для поиска синонимов элементов данных можно обращаться к реестру метаданных . Например, если в исходной системе указано имя FirstName, а в списке назначения указано PersonGivenName , сопоставления все равно будут выполняться, если эти элементы данных указаны как синонимы в реестре метаданных. Семантическое сопоставление может только обнаруживать точные совпадения между столбцами данных и не обнаруживает никакой логики преобразования или исключений между столбцами.

Происхождение данных - это отслеживание жизненного цикла каждого фрагмента данных по мере его приема, обработки и вывода системой аналитики. Это обеспечивает наглядность конвейера аналитики и упрощает отслеживание ошибок до их источников. Это также позволяет воспроизводить определенные части или входные данные потока данных для пошаговой отладки или восстановления потерянных выходных данных. Фактически, системы баз данных уже использовали такую информацию, называемую происхождением данных, для решения аналогичных задач проверки и отладки. ^[2]

Смотрите также

Интеграция данных
Обработка данных
Преобразование идентичности
ISO / IEC 11179 - Стандарт реестра метаданных ISO / IEC
Метаданные
Публикация метаданных
Соответствие схемы
Семантическая неоднородность
Семантический картограф
Семантический перевод
Семантическая сеть
Семантика
XSLT - язык преобразования XML

Внешние ссылки

[ShahbazData15-1] Перейти ↑ Shahbaz, Q. (2015). Отображение данных для проектирования хранилищ данных . Эльзевир. п. 180. ISBN 9780128053355. Проверено 29 мая 2018 .

[2] Де, Сумьярупа. (2012). Newt: архитектура для воспроизведения и отладки на основе происхождения в системах DISC. Калифорнийский университет в Сан-Диего: b7355202. Источник: https://escholarship.org/uc/item/3170p7zn.

[1]