В метаданных , метаданные обнаружение (также сбор метаданных ) является процессом с использованием автоматизированных средств , чтобы обнаружить семантику о наличии элемента данных в наборах данных. Этот процесс обычно заканчивается набором сопоставлений между элементами источника данных и централизованным реестром метаданных . Обнаружение метаданных также известно как сканирование метаданных.
Форматы источников данных для обнаружения метаданных
Наборы данных могут быть в различных формах, включая:
- Реляционные базы данных
- Базы данных NoSQL
- Таблицы
- XML файлы
- Веб-сервисы
- Исходный код программного обеспечения, такой как Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, классы Java, C # или C ++, а также тысячи других языков программного обеспечения
- Неструктурированные текстовые документы, такие как файлы Microsoft Word или PDF.
Таксономия алгоритмов сопоставления метаданных
Есть отдельные категории автоматического обнаружения метаданных:
Лексическое соответствие
- Точное совпадение - когда связи элементов данных устанавливаются на основе точного имени столбца в базе данных, имени элемента XML или метки на экране. Например, если столбец базы данных имеет имя «PersonBirthDate», а элемент данных в реестре метаданных также имеет имя «PersonBirthDate», автоматизированные инструменты могут сделать вывод, что столбец базы данных имеет ту же семантику (значение), что и элемент данных. в реестре метаданных.
- Сопоставление синонимов - инструменту обнаружения присваивается не просто одно имя, а набор синонимов.
- Соответствие шаблону - в этом случае инструментам дается набор лексических шаблонов, которые он может сопоставить. Например, инструменты могут искать «* пол *» или «* пол *».
Семантическое соответствие
Семантическое сопоставление пытается использовать семантику для связывания целевых данных с зарегистрированными элементами данных .
- Семантическое сходство - в этом алгоритме используется база данных концептуальной близости слов. Например, система WordNet может оценивать, насколько слова концептуально близки друг другу. Например, термины «Человек», «Индивидуум» и «Человек» могут быть очень похожими понятиями.
Статистическое сопоставление
Статистическое сопоставление использует статистику самих данных источников данных для выявления сходства с зарегистрированными элементами данных.
- Анализ отличных значений - анализируя все отдельные значения в столбце, можно сделать сходство с зарегистрированным элементом данных. Например, если столбец имеет только два различных значения «мужской» и «женский», это может быть сопоставлено с «PersonGenderCode».
- Анализ распределения данных - анализируя распределение значений в пределах одного столбца и сравнивая это распределение с известными элементами данных, можно сделать вывод о семантической связи.
Продавцы
Следующие поставщики (перечислены в алфавитном порядке) предоставляют программное обеспечение и решения для обнаружения и сопоставления метаданных.
- BigHand / Esquire Innovations (см. [1] )
- IBM
- Таленд
- InfoLibrarian Corporation (см. [2] )
- Приложение базы данных метаданных MindHARBOR (см. [3] )
- Octopai - кроссплатформенная автоматизация обнаружения и управления метаданными (см. [4] )
- Revelytix (см. [5] )
- Системы Силвер-Крик (см. [6] )
- Stratio (см. Надежность данных - основа успешных компаний )
- Sypherlink: Харвестер (см. [7] )
- Unicorn Systems (см. [8] )
Исследовать
- Проект INDUS в Университете штата Айова (см. [9] )
- Ртуть - распределенная система управления метаданными и обнаружения данных, разработанная в Окриджской национальной лаборатории DAAC (см. [10] ) [1]
Смотрите также
Рекомендации
Цитаты
- ^ Девараконда, Р., Паланисами, Г., Уилсон, Б., и Грин, Дж. (2010), «Меркурий: многоразовое управление метаданными, система обнаружения и доступа к данным» , Информатика наук о Земле , Springer Berlin / Heidelberg, 3 ( 1): 87–94, Bibcode : 2010ESIn .... 3 ... 87D , doi : 10.1007 / s12145-010-0050-7CS1 maint: несколько имен: список авторов ( ссылка )
Источники
- Системы массового анализа данных , суперкомпьютерный центр Сан-Диего, июнь 1997 г.
- Технический документ IBM по обнаружению корпоративных метаданных
- Белая книга по управлению метаданными - от Esquire Innovations