Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Пример куба OLAP

OLAP куб представляет собой многомерный массив данных. [1] Онлайн-аналитическая обработка (OLAP) [2] - это компьютерный метод анализа данных для поиска информации. Термин куб здесь относится к многомерному набору данных, который также иногда называют гиперкубом, если количество измерений больше 3.

Терминология [ править ]

Куб можно рассматривать как многомерное обобщение двух- или трехмерной электронной таблицы . Например, компания может пожелать обобщить финансовые данные по продуктам, по периодам времени и по городам, чтобы сравнить фактические и бюджетные расходы. Продукт, время, город и сценарий (фактический и бюджет) являются измерениями данных. [3]

Куб - это сокращение для многомерного набора данных , учитывая, что данные могут иметь произвольное количество измерений . Иногда используется термин гиперкуб , особенно для данных с более чем тремя измерениями. Куб не является «кубом» в строгом математическом смысле, поскольку все стороны не обязательно равны. Но этот термин широко используется.

Фрагмент представляет собой термин для подмножества данных, генерируемого путем выбора значения для одного измерения , и только показывать данные для этого значения (например , только данные в один момент времени). Таблицы бывают только двухмерными, поэтому с помощью (непрерывного) нарезания или других методов становится возможным визуализировать в них многомерные данные.

Каждая ячейка куба содержит число, которое представляет некоторую оценку бизнеса, такую ​​как продажи, прибыль, расходы, бюджет и прогноз.

Данные OLAP обычно хранятся в виде звездообразной схемы или схемы « снежинка» в реляционном хранилище данных или в специальной системе управления данными. Показатели извлекаются из записей в таблице фактов, а измерения - из таблиц измерений .

Иерархия [ править ]

Элементы измерения могут быть организованы в виде иерархии , [4] набор родитель-потомок, как правило , когда родительский элемент суммирует своих детей. В дальнейшем родительские элементы могут быть объединены как дочерние элементы другого родителя. [5]

Например, родителем мая 2005 года является Второй квартал 2005 года, который, в свою очередь, является потомком 2005 года. Точно так же города являются потомками регионов; продукты объединяются в товарные группы, а отдельные статьи расходов - в виды расходов.

Операции [ править ]

Представление данных в виде куба с иерархическими измерениями приводит к концептуально простым операциям, упрощающим анализ. Согласование содержимого данных со знакомой визуализацией улучшает обучение аналитиков и повышает их производительность. [5] Инициированный пользователем процесс навигации путем вызова страницы отображается в интерактивном режиме, через спецификацию срезов с помощью вращения и перехода вниз / вверх, иногда называется «срезом и кубиком». Общие операции включают в себя фрагменты и кости, детализацию, свертывание и поворот.

Нарезка OLAP

Срез - это выбор прямоугольного подмножества куба путем выбора единственного значения для одного из его измерений и создания нового куба с одним измерением меньше. [5] На рисунке показана операция нарезки: показатели продаж всех регионов продаж и всех категорий продуктов компании в 2005 и 2006 годах «вырезаны» из куба данных.

OLAP игра в кости

Игра в кости : операция игры в кости создает вложенный куб, позволяя аналитику выбирать определенные значения из нескольких измерений. [6] На рисунке показана операция нарезки кубиками: новый куб показывает показатели продаж ограниченного числа категорий продуктов, измерения времени и региона охватывают тот же диапазон, что и раньше.

OLAP-функции
OLAP-развертка и детализация

Drill Down / Up позволяет пользователю перемещаться между уровнями данных, начиная от наиболее обобщенных (вверх) до наиболее подробных (вниз). [5] На рисунке показана операция детализации: аналитик переходит из итоговой категории «Outdoor-Schutzausrüstung», чтобы увидеть показатели продаж для отдельных продуктов.

Объединение : объединение включает суммирование данных по измерению. Правило резюмирования может быть агрегатной функцией , такой как вычисление итогов по иерархии или применение набора формул, таких как «прибыль = продажи - расходы». [5] Общие функции агрегирования могут быть дорогостоящими для вычисления при сворачивании: если они не могут быть определены из ячеек куба, они должны быть вычислены из базовых данных, либо вычисляя их в режиме онлайн (медленно), либо предварительно вычисляя их для возможных развертываний ( большое пространство). Функции агрегирования, которые могут быть определены из ячеек, известны как разложимые функции агрегирования и позволяют выполнять эффективные вычисления. [7] Например, его легко поддерживать COUNT, MAX, MIN,иSUMв OLAP, поскольку их можно вычислить для каждой ячейки куба OLAP, а затем свести воедино, поскольку общая сумма (или подсчет и т. д.) представляет собой сумму частичных сумм, но ее трудно поддерживать MEDIAN, поскольку она должна быть вычислена для каждого вида отдельно: медиана набора не является медианой медиан подмножеств.

Вращение OLAP

Pivot позволяет аналитику вращать куб в пространстве, чтобы увидеть его различные грани. Например, города можно расположить по вертикали, а продукты - по горизонтали при просмотре данных за конкретный квартал. Вращение может заменить продукты периодами времени, чтобы увидеть данные во времени для одного продукта. [5] [8]

На рисунке показана операция поворота: вращается весь куб, что дает новый взгляд на данные.

Математическое определение [ править ]

В теории баз данных , OLAP куба [9] абстрактное представление проекции в качестве РСУБД отношения. Учитывая отношение порядка N , рассмотрим проекцию, в которой X , Y и Z являются ключевыми, а W - остаточным атрибутом . Характеризуя это как функцию ,

f  : ( X , Y , Z ) → W ,

атрибуты X , Y и Z соответствуют осям куба, а значение W соответствует элементу данных, который заполняет каждую ячейку куба.

Поскольку устройства двумерного вывода не могут с легкостью охарактеризовать три измерения, более практично проецировать «срезы» куба данных (мы говорим, что проектирование осуществляется в классическом векторном аналитическом смысле уменьшения размерности, а не в смысле SQL , хотя они и являются концептуально похожи),

g  : ( X , Y ) → W

который может подавлять первичный ключ, но все же иметь некоторое семантическое значение, возможно, часть триадного функционального представления для данного интересующего значения Z.

Мотивация [9], лежащая в основе OLAP- дисплеев, восходит к парадигме перекрестных отчетов СУБД 1980-х годов и к более ранним таблицам непредвиденных обстоятельств с 1904 года. Результатом является отображение в виде электронной таблицы, где значения X заполняют строку $ 1; значения Y заполняют столбец $ A; и значения g  : ( X , Y ) → W заполняют отдельные ячейки на пересечении столбцов с меткой X и строк с меткой Y, так сказать, "юго-восток" от $ B $ 2, включая сам $ B $ 2.

См. Также [ править ]

  • Бизнес-аналитика
  • Сравнение серверов OLAP
  • Куб данных
  • Витрина данных
  • Сбор данных
  • Расширения интеллектуального анализа данных
  • Быстрый анализ общей многомерной информации
  • Многомерные выражения
  • XML для анализа

Ссылки [ править ]

  1. ^ Грей, Джим; Босуорт, Адам; Обыватель, Андрей; Пирахеш, Хамид (1996). «Куб данных: оператор реляционного агрегирования, обобщающий группировку по, кросс-таблицу и промежуточные итоги». Труды Международной конференции по инженерии данных (ICDE) . С. 152–159. arXiv : cs / 0701155 . DOI : 10.1109 / ICDE.1996.492099 .
  2. ^ «Обзор онлайн-аналитической обработки (OLAP)» . support.office.com . Проверено 8 сентября 2018 .
  3. ^ «Cybertec выпускает кубы OLAP для PostgreSQL» . PostgreSQL. 2006-10-02. Архивировано из оригинала на 2013-07-06 . Проверено 5 марта 2008 .
  4. ^ "Oracle9i Data Warehousing Guide иерархия" . Лоренц-центр . Проверено 5 марта 2008 .
  5. ^ a b c d e f «Определения OLAP и серверов OLAP» . Совет OLAP. 1995 . Проверено 18 марта 2008 .
  6. ^ «Глоссарий терминов интеллектуального анализа данных» . Университет Альберты. 1999 . Проверено 17 марта 2008 .
  7. ^ Чжан 2017 , стр. 1.
  8. ^ «Компьютерная энциклопедия: многомерные взгляды» . Answers.com . Проверено 5 марта 2008 .
  9. ^ a b Грей, Джим ; Босуорт, Адам; Обыватель, Андрей; Приехеш, Хамид (1995-11-18). «Куб данных: оператор реляционного агрегирования, обобщающий группировку по, кросс-таблицу и промежуточные итоги» . Proc. 12-я Международная конференция по инженерии данных . IEEE. С. 152–159 . Проверено 9 ноября 2008 .
  • Чжан, Чао (2017). Симметричная и асимметричная агрегатная функция в массово-параллельных вычислениях (Технический отчет).

Внешние ссылки [ править ]

  • Даниэль Лемир (декабрь 2007 г.). «Хранилище данных и OLAP - библиография, ориентированная на исследования» . Архивировано из оригинала на 2013-07-06 . Проверено 5 марта 2008 .
  • Словарь куба данных RDF
  • Microsoft Azure: онлайн-аналитическая обработка (OLAP)
  • Видео: мертв ли ​​OLAP?