Обертка (интеллектуальный анализ данных)


Оболочка в интеллектуальном анализе данных — это процедура, которая извлекает регулярное подсодержимое неструктурированного или слабоструктурированного источника информации и переводит его в реляционную форму , чтобы его можно было обрабатывать как структурированные данные. [1] Индукция обертки — это проблема разработки процедур извлечения на автоматической основе с минимальной зависимостью от созданных вручную правил.

Многие веб-страницы автоматически генерируются из структурированных данных (телефонных справочников, каталогов продуктов и т. д.), заключенных в слабо структурированный язык представления (обычно какой-либо вариант HTML ).), отформатированный для просмотра и навигации человеком. Структурированные данные, как правило, представляют собой описания объектов, извлеченных из базовых баз данных и отображаемых на веб-страницах в соответствии с фиксированными шаблонами на низком уровне, внедренными на страницы, где высокоуровневая структура может меняться от недели к неделе в соответствии с быстро развивающимся стилем оформления сайта. . Точная граница между изменчивой высокоуровневой оболочкой и менее изменчивыми структурированными шаблонами данных редко документируется для публичного использования, за исключением группы управления контентом веб-ресурса. Программные системы, использующие такие ресурсы, должны переводить содержимое HTML в реляционную форму. В качестве таких трансляторов обычно используются обертки. Формально обертка — это функция от страницы к набору содержащихся в ней кортежей .

Существует два основных подхода к генерации оболочек: индукция оберток и автоматическое извлечение данных . Индукция оболочки использует обучение с учителем для изучения правил извлечения данных из помеченных вручную обучающих примеров. Недостатки индукции обертки:

Из-за ручной маркировки трудно извлечь данные из большого количества сайтов, поскольку каждый сайт имеет свои собственные шаблоны и требует отдельной ручной маркировки для обучения оболочки. Обслуживание оболочки также является серьезной проблемой, потому что всякий раз, когда сайт изменяется, оболочки, созданные для сайта, устаревают. Из-за этих недостатков исследователи изучили автоматическую генерацию оболочек с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, поскольку большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе выполнять извлечение автоматически. [2]

Генерация оболочек в Интернете является важной проблемой для широкого круга приложений. Извлечение таких данных позволяет интегрировать данные/информацию с нескольких веб-сайтов для предоставления дополнительных услуг, например, сравнительных покупок, поиска объектов и интеграции информации.