Dataspaces

Пространства данных - это абстракция в управлении данными , цель которой - преодолеть некоторые проблемы, встречающиеся в системе интеграции данных. Цель состоит в том, чтобы уменьшить усилия, необходимые для настройки системы интеграции данных, полагаясь на существующие методы сопоставления и сопоставления, а также улучшить систему с оплатой по мере использования. Трудоемкие аспекты интеграции данных откладываются до тех пор, пока они не станут абсолютно необходимыми. ^[1]^[2]^[3]^[4]^[5]^[6]^[7]^[8]

Традиционно системы интеграции данных и обмена данными были нацелены на предоставление многих предполагаемых услуг систем пространств данных. Пространства данных можно рассматривать как следующий шаг в эволюции архитектур интеграции данных, но они отличаются от существующих систем интеграции данных следующим образом. Системы интеграции данных требуют семантической интеграции, прежде чем могут быть предоставлены какие-либо услуги. Следовательно, хотя не существует единой схемы, которой соответствуют все данные, и данные находятся во множестве хост-систем, система интеграции данных знает точные отношения между терминами, используемыми в каждой схеме. В результате требуются значительные предварительные усилия для настройки системы интеграции данных.

Пространства данных переносят акцент на подход сосуществования данных, обеспечивающий базовую функциональность для всех источников данных, независимо от того, насколько они интегрированы. Например, платформа поддержки DataSpace (DSSP) может обеспечивать поиск по ключевым словам по всем своим источникам данных, аналогично тому, который предоставляется существующими поисковыми системами настольных компьютеров. Когда требуются более сложные операции, такие как запросы в реляционном стиле, интеллектуальный анализ данныхили мониторинг определенных источников, тогда могут быть приложены дополнительные усилия для более тесной интеграции этих источников поэтапно. Точно так же, с точки зрения традиционных гарантий баз данных, изначально система пространства данных может предоставить только более слабые гарантии согласованности и долговечности. Поскольку требуются более надежные гарантии, можно приложить больше усилий для заключения соглашений между различными владельцами источников данных и открытия определенных интерфейсов (например, для протоколов фиксации).

Графы данных играют важную роль в системах пространств данных. Они работают на основе подхода к моделированию данных (троек или «сущностей данных», состоящих из субъект-предикат-объект) ^[9], который поддерживает описанные выше методы «плати по мере использования». Они поддерживают сосуществование данных и поэтому являются идеальным методом для семантической интеграции . Поисковые и реляционные запросы и аналитика могут работать одновременно с графами данных, что является еще одним важным свойством пространств данных.

Приложения пространств данных [ править ]

Управление личной информацией [ править ]

Целью управления личной информацией является обеспечение легкого доступа ко всей информации на рабочем столе человека и манипулирования ею с возможным расширением на мобильные устройства, личной информации в Интернете или даже всей информации, доступ к которой осуществляется в течение жизни человека. Недавние инструменты поиска на рабочем столе - важный первый шаг для PIM, но они ограничены запросами по ключевым словам. Наши рабочие столы обычно содержат некоторые структурированные данные (например, электронные таблицы), и есть важные ассоциации между разрозненными элементами на рабочем столе. Следовательно, следующий шаг для PIM - дать пользователю возможность выполнять поиск на рабочем столе более осмысленными способами. Например, «найти список юниоров, которые прошли мой курс по базам данных в прошлом квартале» или «вычислить совокупный баланс моих банковских счетов». Мы также хотели бы выполнить поиск по ассоциации, например, «найти электронное письмо, которое Джон прислал мне в день, когда я вернулся с Гавайев», или «получить файлы экспериментов, связанные с моей статьей SIGMOD в этом году». Наконец, мы хотели бы запросить источники, например, «найти все статьи, в которых я подтвердил получение конкретного гранта», «найти все эксперименты, проведенные конкретным студентом» или «найти все электронные таблицы, в которых есть столбец дисперсии».

Принципы работы с пространствами данных в этом примере заключаются в следующем:

инструмент PIM должен обеспечивать доступ ко всей информации на рабочем столе, а не только к явно или неявно выбранному подмножеству, и
хотя PIM часто включает в себя интеграцию данных из нескольких источников, мы не можем предположить, что пользователи будут тратить время на интеграцию. Вместо этого в большинстве случаев система должна будет обеспечивать наилучшие результаты, а более тесная интеграция будет создаваться только в тех случаях, когда выгода явно перевешивает инвестиции.

Управление научными данными [ править ]

Рассмотрим группу научных исследований, занимающуюся наблюдением и прогнозированием окружающей среды, такую как CORIE System1. Они могут контролировать прибрежную экосистему с помощью метеорологических станций, датчиков, установленных на берегу и на буях, а также с помощью удаленных изображений. Кроме того, они могут запускать модели атмосферы и гидродинамики, моделирующие прошлые, текущие и ближайшие будущие условия. Для расчетов может потребоваться импорт данных и выходных данных моделей из других групп, таких как прогнозы речных потоков и океанической циркуляции. Наблюдения и моделирование являются входными данными для программ, которые генерируют широкий спектр продуктов данных для использования внутри группы и другими лицами: графики сравнения между наблюдаемыми и смоделированными данными, изображения распределения температуры поверхности, анимации вторжения соленой воды в устье.Такая группа может легко собрать миллионы продуктов данных всего за несколько лет. Хотя может случиться так, что для каждого файла кто-то в группе знает, где он находится и что он означает, никто не может знать все хранилища или значение каждого файла. Люди, получающие доступ к этим данным, особенно из-за пределов группы, хотели бы выполнить поиск в основном инвентаре, в котором были основные атрибуты файла, такие как охватываемый период времени, географический регион, высота или глубина, физические переменные (соленость, температура, скорость ветра), вид информационный продукт (график, изолинии, анимация), прогноз или ретроспективный анализ и т. д. После того, как интересующие продукты данных обнаружены, понимание происхождения имеет первостепенное значение для возможности анализировать и сравнивать продукты: какая версия кода использовалась? Какая сетка конечных элементов? Как долго длился временной шаг моделирования? Какой набор атмосферных данных был использован в качестве входных?Какая версия кода использовалась? Какая сетка конечных элементов? Как долго длился временной шаг моделирования? Какой набор атмосферных данных был использован в качестве входных?

Группам потребуется объединиться с другими группами для создания пространств научных данных регионального или национального масштаба. Им нужно будет легко экспортировать свои данные в стандартные научные форматы и с детализацией (субфайл или несколько файлов), которые не обязательно соответствуют разделам, которые они используют для хранения данных. Пользователи объединенного пространства данных могут захотеть увидеть наборы данных, которые охватывают группы в федерации, например, все наблюдения и продукты данных, связанные со скоростью воды, или все данные, относящиеся к определенному участку береговой линии за последние два месяца. Такие коллекции могут потребовать локальных копий или дополнительных указателей для быстрого поиска.

Этот сценарий иллюстрирует несколько требований к пространству данных, в том числе

каталог всего пространства данных,
поддержка происхождения данных и
создание коллекций и индексов по объектам, охватывающим более одного участвующего источника.

См. Также [ править ]

Ссылки [ править ]

^ Belhajjame, K .; Патон, Северо-Запад ; Эмбури, С.М. Фернандес, AAA; Хеделер, К. (2013). «Постепенное улучшение пространств данных на основе отзывов пользователей». Информационные системы . 38 (5): 656. CiteSeerX 10.1.1.303.1957 . DOI : 10.1016 / j.is.2013.01.006 .
^ Belhajjame, K .; Патон, Северо-Запад ; Эмбури, С.М. Фернандес, AAA; Хеделер, К. (2010). «Аннотации на основе обратной связи, выбор и уточнение отображений схем для пространств данных». Труды 13-й Международной конференции по расширению технологий баз данных - EDBT '10 . п. 573. DOI : 10,1145 / 1739041,1739110 . ISBN 9781605589459.
^ Талукдар, ПП; Ives, ZG; Перейра, Ф. (2010). «Автоматическое включение новых источников в интеграцию данных на основе поиска по ключевым словам» . Материалы международной конференции по управлению данными 2010 г. - SIGMOD '10 . п. 387. DOI : 10,1145 / 1807167,1807211 . ISBN 9781450300322.
^ Сарма, AD; Донг, X. (L .; Halevy, AY (2009). «Моделирование данных в платформах поддержки пространства данных». Концептуальное моделирование: основы и приложения . Лекционные заметки по информатике. 5600. стр. 122. doi : 10.1007 / 978-3 -642-02463-4_8 . ISBN 978-3-642-02462-7.
^ Донг, XL; Халеви, А .; Ю. К. (2008). «Интеграция данных с неопределенностью». Журнал VLDB . 18 (2): 469. CiteSeerX 10.1.1.176.3648 . DOI : 10.1007 / s00778-008-0119-9 .
^ Хау, В .; Maier, D .; Rayner, N .; Ракер, Дж. (2008). «Поиск пространств данных: бессхемное профилирование незнакомых источников информации». 2008 24-я Международная конференция IEEE по Data Engineering Workshop . п. 270. DOI : 10,1109 / ICDEW.2008.4498331 . ISBN 978-1-4244-2161-9.
^ Донг, X .; Галеви, А. (2007). «Индексирование пространств данных». Материалы международной конференции ACM SIGMOD 2007 по управлению данными - SIGMOD '07 . п. 43. DOI : 10,1145 / 1247480,1247487 . ISBN 9781595936868.
^ Франклин, М .; Халеви, А .; Майер, Д. (2005). «От баз данных к пространствам данных». ACM SIGMOD Запись . 34 (4): 27. DOI : 10,1145 / 1107499,1107502 .
^ [1] ZDNet, Actian добавляет в свой арсенал механизм графической аналитики SPARQL City.

Дальнейшее чтение [ править ]

Партха Пратим Талукдар, Мари Джейкоб, Мухаммад Салман Мехмуд, Коби Краммер, Закари Г. Айвс, Фернандо Перейра, Судипто Гуха: учимся создавать запросы, объединяющие данные. PVLDB 1 (1): 785-796 (2008).
Майкл Дж. Франклин, Алон Ю. Халеви, Дэвид Майер: первое руководство по пространствам данных . ПВЛДБ 1 (2): 1516-1517 (2008).
Йенс-Петер Диттрих, Маркос Антонио Ваз Саллес: iDM: унифицированная и универсальная модель данных для управления персональным пространством данных . VLDB 2006: 367-378.

Внешние ссылки [ править ]

Пространства данных по уточнению

[1] Belhajjame, K .; Патон, Северо-Запад ; Эмбури, С.М. Фернандес, AAA; Хеделер, К. (2013). «Постепенное улучшение пространств данных на основе отзывов пользователей». Информационные системы . 38 (5): 656. CiteSeerX 10.1.1.303.1957 . DOI : 10.1016 / j.is.2013.01.006 .

[2] Belhajjame, K .; Патон, Северо-Запад ; Эмбури, С.М. Фернандес, AAA; Хеделер, К. (2010). «Аннотации на основе обратной связи, выбор и уточнение отображений схем для пространств данных». Труды 13-й Международной конференции по расширению технологий баз данных - EDBT '10 . п. 573. DOI : 10,1145 / 1739041,1739110 . ISBN 9781605589459.

[3] Талукдар, ПП; Ives, ZG; Перейра, Ф. (2010). «Автоматическое включение новых источников в интеграцию данных на основе поиска по ключевым словам» . Материалы международной конференции по управлению данными 2010 г. - SIGMOD '10 . п. 387. DOI : 10,1145 / 1807167,1807211 . ISBN 9781450300322.

[4] Сарма, AD; Донг, X. (L .; Halevy, AY (2009). «Моделирование данных в платформах поддержки пространства данных». Концептуальное моделирование: основы и приложения . Лекционные заметки по информатике. 5600. стр. 122. doi : 10.1007 / 978-3 -642-02463-4_8 . ISBN 978-3-642-02462-7.

[5] Донг, XL; Халеви, А .; Ю. К. (2008). «Интеграция данных с неопределенностью». Журнал VLDB . 18 (2): 469. CiteSeerX 10.1.1.176.3648 . DOI : 10.1007 / s00778-008-0119-9 .

[6] Хау, В .; Maier, D .; Rayner, N .; Ракер, Дж. (2008). «Поиск пространств данных: бессхемное профилирование незнакомых источников информации». 2008 24-я Международная конференция IEEE по Data Engineering Workshop . п. 270. DOI : 10,1109 / ICDEW.2008.4498331 . ISBN 978-1-4244-2161-9.

[7] Донг, X .; Галеви, А. (2007). «Индексирование пространств данных». Материалы международной конференции ACM SIGMOD 2007 по управлению данными - SIGMOD '07 . п. 43. DOI : 10,1145 / 1247480,1247487 . ISBN 9781595936868.

[8] Франклин, М .; Халеви, А .; Майер, Д. (2005). «От баз данных к пространствам данных». ACM SIGMOD Запись . 34 (4): 27. DOI : 10,1145 / 1107499,1107502 .

[9] [1] ZDNet, Actian добавляет в свой арсенал механизм графической аналитики SPARQL City.

[1]