Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В контексте компьютерного программирования куб данных (или куб данных ) представляет собой многомерный («nD») массив значений. Обычно термин datacube применяется в контекстах, где эти массивы значительно больше, чем основная память хост-компьютера; Примеры включают хранилища данных размером в несколько терабайт / петабайт и временные ряды данных изображений.

Куб данных используется для представления данных (иногда называемых фактами) по некоторой мере, представляющей интерес. Например, в OLAP такими показателями могут быть дочерние предприятия компании, продукты, предлагаемые компанией, и время; в этой настройке фактом будет событие продажи, когда конкретный продукт был продан в определенной дочерней компании в определенное время. В временных рядах спутниковых изображений измерениями будут координаты широты и долготы и время; фактом будет пиксель в заданной пространственно-временной координате, принятый спутником (после некоторой обработки, которая здесь не имеет значения). Хотя это называется куб(и приведенные выше примеры для краткости являются трехмерными), куб данных обычно представляет собой многомерное понятие, которое может быть одномерным, двухмерным, трехмерным или многомерным. В любом случае каждое измерение представляет собой отдельную меру, тогда как ячейки куба представляют интересующие факты. Иногда кубы содержат только несколько значений, а остальные являются пустыми , например: undefined, иногда большинство или все координаты куба содержат значение ячейки. В первом случае такие данные называются разреженными , во втором - плотными , хотя между ними нет четкого разграничения.

История [ править ]

Многомерные массивы давно известны в языках программирования. Fortran предлагает одномерные массивы и массивы массивов, что позволяет создавать многомерные массивы. APL поддерживает массивы nD с богатым набором операций. Общим для всего этого является то, что массивы должны помещаться в основную память и доступны только во время работы поддерживающей их программы (например, программы обработки изображений).

Ряд форматов обмена данными поддерживает хранение и передачу данных, подобных кубу данных, часто адаптированных к конкретным доменам приложений. Примеры включают многомерные выражения для статистических (в частности, деловых) данных, иерархический формат данных для общенаучных данных и TIFF для изображений.

В 1992 году Питер Бауманн представил управление огромными информационными кубами с высокоуровневыми пользовательскими функциями в сочетании с эффективной архитектурой программного обеспечения. [1] Операции Datacube включают извлечение подмножеств, обработку, слияние и общие запросы в духе языков манипулирования данными, таких как SQL .

Спустя несколько лет концепция куба данных была применена для описания изменяющихся во времени бизнес-данных как кубов данных Джимом Греем и др. [2] и Венки Харинараяном , Анандом Раджараманом и Джеффом Уллманом [3], которые входят в топ-500 самых цитируемых статьи по информатике за 25-летний период. [4]

Примерно в то же время в немецком Gesellschaft für Informatik была создана рабочая группа по многомерным базам данных (Arbeitskreis Multi-Dimensionale Datenbanken) . [5] [6]

Datacube Inc. была компанией по обработке изображений, продававшей аппаратное и программное обеспечение для рынка ПК в 1996 году, но без обращения к информационным кубам как таковым.

Инициатива EarthServer установила требования к сервису куба геоданных. [7]

Стандартизация [ править ]

В 2018 году язык баз данных ISO SQL был расширен функциональностью куба данных как «SQL - Часть 15: Многомерные массивы (SQL / MDA)». [8]

Служба обработки веб-покрытия - это язык аналитики куба геоданных, выпущенный Open Geospatial Consortium в 2008 году. В дополнение к обычным операциям с кубом данных, язык знает семантику пространства и времени и поддерживает как обычные, так и нерегулярные сеточные кубы данных на основе концепция данных покрытия .

Промышленным стандартом запросов к кубам бизнес-данных, первоначально разработанным Microsoft , является MultiDimensional eXpressions .

Реализация [ править ]

Многие высокоуровневые компьютерные языки обрабатывают кубы данных и другие большие массивы как отдельные объекты, отличные от их содержимого. Эти языки, примерами которых являются APL , IDL , NumPy , PDL и S-Lang , позволяют программисту манипулировать целыми фрагментами фильмов и другими данными в массе с помощью простых выражений, полученных из линейной алгебры и векторной математики. Некоторые языки (например, PDL) различают список изображений и куб данных, тогда как многие (например, IDL) этого не делают.

СУБД с массивами (системы управления базами данных) предлагают модель данных, которая в целом поддерживает определение, управление, извлечение и манипулирование n-мерными кубами данных. Эта категория баз данных была впервые введена системой rasdaman с 1994 года. [9]

Приложения [ править ]

Многомерные массивы могут содержательно представлять пространственно-временные данные датчика, изображения и моделирования, а также статистические данные, где семантика измерений не обязательно имеет пространственную или временную природу. Как правило, любая ось может быть объединена с любой другой в куб данных.

Математика [ править ]

В математике одномерный массив соответствует вектору, двумерный массив напоминает матрицу ; в более общем смысле тензор может быть представлен как n-мерный куб данных.

Наука и инженерия [ править ]

Для временной последовательности цветных изображений массив обычно является четырехмерным, с размерами, представляющими координаты X и Y изображения, время и цветовую плоскость RGB (или другого цветового пространства ). Например, инициатива EarthServer [10] объединяет центры обработки данных с разных континентов, предлагая трехмерные временные ряды спутниковых изображений x / y / t и четырехмерные данные о погоде x / y / z / t для поиска и обработки на стороне сервера через Open Стандарт языка запросов гео-данных WCPS Консорциума геопространственных данных.

Куб данных также используется в области спектроскопии изображений , поскольку изображение со спектральным разрешением представляется в виде трехмерного объема.

Бизнес-аналитика [ править ]

В онлайн-аналитической обработке (OLAP) кубы данных представляют собой обычную структуру бизнес-данных, подходящую для анализа с разных точек зрения с помощью таких операций, как нарезка, нарезание кубиками, поворот и агрегирование.

См. Также [ править ]

  • Массив СУБД
  • Расдаман
  • Куб OLAP
  • Куб данных Австралии по геонаукам
  • Граф (дискретная математика)
  • Абстрактный семантический граф
  • Апач Кайлин

Ссылки [ править ]

  1. Бауманн, Питер (апрель 1992 г.). « Поддержка языков для обработки растровых изображений в базах данных ». Графическое моделирование и визуализация в науке и технологиях . Int. Мастер-класс по графическому моделированию, визуализации в науке и технологиях. Дармштадт, Германия: Springer (опубликовано в 1993 г.). С. 236–245. DOI : 10.1007 / 978-3-642-77811-7_19 .
  2. ^ Грей, Джим; Чаудхури, Сураджит; Босуорт, Адам; Обыватель, Андрей; Райхарт, Дон; Венкатрао, Мурали; Пеллоу, Фрэнк; Пирахеш, Хамид (январь 1997 г.). « Куб данных: оператор реляционного агрегирования, обобщающий группировку по, кросс-таблицу и промежуточные итоги ». Интеллектуальный анализ данных и обнаружение знаний . 1 (1): 29–53. DOI : 10,1023 / A: 1009726021843 .
  3. ^ Harinarayan, Venky; Раджараман, Ананд; Ульман, Джеффри Д. (1996). «Эффективное внедрение кубов данных».Эффективное внедрение кубов данных. С. 205–216. CiteSeerX  10.1.1.41.1205 . DOI : 10.1145 / 233269.233333 . ISBN 978-0897917940.
  4. ^ 500 наиболее цитируемых статей по информатике (501–600), CiteSeer . 12 июня 2009 г. Проверено 21 марта 2017 г.
  5. ^ "dblp: Datenbank Rundbrief, Ausgabe 19, Mai 1997" . dblp.uni-trier.de .
  6. ^ "dblp: Datenbank Rundbrief, Ausgabe 23, Mai 1999" . dblp.uni-trier.de .
  7. ^ « Манифест базы данных » . www.earthserver.eu . Проверено 21 сентября 2017 .
  8. ^ "ISO / IEC DIS 9075-15 Информационные технологии - Языки баз данных - SQL - Часть 15: Многомерные массивы (SQL / MDA)" . Проверено 27 мая 2018 .
  9. ^ "Управление многомерными дискретными данными" (PDF) . www.vldb.org . Проверено 21 сентября 2017 .
  10. ^ "EarthServer - Big Datacube Analytics на кончиках ваших пальцев" . www.earthserver.eu . Проверено 31 марта 2017 .