Полуструктурированные данные

Полуструктурированные данные ^[1] - это форма структурированных данных , которая не подчиняется табличной структуре моделей данных, связанных с реляционными базами данных или другими формами таблиц данных , но, тем не менее, содержит теги или другие маркеры для разделения семантических элементов и обеспечения иерархии записей. и поля в данных. Поэтому она также известна как самоописывающаяся структура.

В частично структурированных данных объекты, принадлежащие к одному классу, могут иметь разные атрибуты, даже если они сгруппированы вместе, и порядок атрибутов не важен.

Полуструктурированные данные все чаще встречаются с появлением Интернета, где полнотекстовые документы и базы данных больше не являются единственными формами данных, а различным приложениям требуется среда для обмена информацией . В объектно-ориентированных базах данных часто встречаются полуструктурированные данные.

Типы [ править ]

XML [ править ]

XML , ^[2] другие языки разметки, электронная почта и EDI - все это формы полуструктурированных данных. OEM (объектная модель обмена) ^[3] была создана до XML как средство самоописания структуры данных. XML был популяризирован веб-службами, разработанными с использованием принципов SOAP .

Некоторые типы данных, описанные здесь как «частично структурированные», особенно XML, страдают от впечатления, что они неспособны к структурной строгости на том же функциональном уровне, что и реляционные таблицы и строки. Действительно, представление XML как частично структурированного по своей сути (ранее он назывался «неструктурированным») затрудняет его использование в расширяющемся диапазоне приложений, ориентированных на данные. Даже документы, обычно рассматриваемые как воплощение полуструктуры, могут быть разработаны с практически такой же строгостью, что и схема базы данных, обеспечены схемой XML и обработаны как коммерческими, так и пользовательскими программами, не уменьшая их удобство использования для читателей.

Ввиду этого факта XML можно было бы назвать имеющим «гибкую структуру», способную к ориентированному на человека потоку и иерархии, а также к очень строгой структуре элементов и типизации данных.

Однако концепция XML как «удобочитаемого для человека» может быть только до сих пор. Некоторые реализации / диалекты XML, такие как XML-представление содержимого документа Microsoft Word, реализованное в Office 2007 и более поздних версиях, используют десятки или даже сотни различных типов тегов, которые отражают конкретную проблемную область - в случае Word форматирование на уровне символа, абзаца и документа, определения стилей, включение цитат и т. д., которые сложным образом вложены друг в друга. Понимание даже части такого XML-документа путем его чтения, не говоря уже о выявлении ошибок в его структуре, невозможно без очень глубокого предварительного понимания конкретной реализации XML, а также помощи программного обеспечения, которое понимает используемую схему XML. Такого текста нет "понятным для человека "так же, как книга, написанная на суахили (в которой используется латинский алфавит), была бы для американца или западноевропейца, который не знает ни слова на этом языке: теги - это символы, которые не имеют смысла для человека, незнакомого с домен.

JSON [ править ]

JSON или JavaScript Object Notation - это открытый стандартный формат, в котором используется читаемый человеком текст для передачи объектов данных, состоящих из пар атрибут-значение. Он используется в основном для передачи данных между сервером и веб-приложением в качестве альтернативы XML. JSON популяризировали веб-службы, разработанные с использованием принципов REST .

Существует новое поколение баз данных, таких как MongoDB и Couchbase, которые изначально хранят данные в формате JSON, используя преимущества архитектуры полуструктурированных данных.

Плюсы и минусы [ править ]

Преимущества [ править ]

Программистам, сохраняющим объекты из своего приложения в базе данных, не нужно беспокоиться о несоответствии объектно-реляционного импеданса , но часто они могут сериализовать объекты с помощью облегченной библиотеки.
Поддержка вложенных или иерархических данных часто упрощает модели данных, представляющие сложные отношения между сущностями.
Поддержка списков объектов упрощает модели данных, избегая беспорядочного перевода списков в реляционную модель данных.

Недостатки [ править ]

Традиционная реляционная модель данных имеет популярный и готовый язык запросов SQL .
Склонен к «мусору на входе, мусоре на выходе»; устранение ограничений из модели данных снижает необходимость в предварительных размышлениях, необходимых для работы приложения данных.

См. Также [ править ]

Ссылки [ править ]

^ Питер бунемановская (1997). «Полуструктурированные данные» (PDF) . Симпозиум по принципам систем баз данных .
^ Группа баз данных Penn имеет проект полуструктурированных и XML-данных.
^ СУБД Стэнфордского университета Lore

Внешние ссылки [ править ]

UPenn Database Group - полуструктурированные данные и XML
Аналитика полуструктурированных данных: реляционная платформа или платформа Hadoop? от IBM

[1] Питер бунемановская (1997). «Полуструктурированные данные» (PDF) . Симпозиум по принципам систем баз данных .

[2] Группа баз данных Penn имеет проект полуструктурированных и XML-данных.

[3] СУБД Стэнфордского университета Lore

[1]