OLAP куб представляет собой многомерный массив данных. [1] Онлайн-аналитическая обработка (OLAP) [2] - это компьютерный метод анализа данных для поиска информации. Термин куб здесь относится к многомерному набору данных, который также иногда называют гиперкубом, если количество измерений больше 3.
Терминология [ править ]
Куб можно рассматривать как многомерное обобщение двух- или трехмерной электронной таблицы . Например, компания может пожелать обобщить финансовые данные по продуктам, по периодам времени и по городам, чтобы сравнить фактические и бюджетные расходы. Продукт, время, город и сценарий (фактический и бюджет) являются измерениями данных. [3]
Куб - это сокращение для многомерного набора данных , учитывая, что данные могут иметь произвольное количество измерений . Иногда используется термин гиперкуб , особенно для данных с более чем тремя измерениями. Куб не является «кубом» в строгом математическом смысле, поскольку все стороны не обязательно равны. Но этот термин широко используется.
Фрагмент представляет собой термин для подмножества данных, генерируемого путем выбора значения для одного измерения , и только показывать данные для этого значения (например , только данные в один момент времени). Таблицы бывают только двухмерными, поэтому с помощью (непрерывного) нарезания или других методов становится возможным визуализировать в них многомерные данные.
Каждая ячейка куба содержит число, которое представляет некоторую оценку бизнеса, такую как продажи, прибыль, расходы, бюджет и прогноз.
Данные OLAP обычно хранятся в виде звездообразной схемы или схемы « снежинка» в реляционном хранилище данных или в специальной системе управления данными. Показатели извлекаются из записей в таблице фактов, а измерения - из таблиц измерений .
Иерархия [ править ]
Элементы измерения могут быть организованы в виде иерархии , [4] набор родитель-потомок, как правило , когда родительский элемент суммирует своих детей. В дальнейшем родительские элементы могут быть объединены как дочерние элементы другого родителя. [5]
Например, родителем мая 2005 года является Второй квартал 2005 года, который, в свою очередь, является потомком 2005 года. Точно так же города являются потомками регионов; продукты объединяются в товарные группы, а отдельные статьи расходов - в виды расходов.
Операции [ править ]
Представление данных в виде куба с иерархическими измерениями приводит к концептуально простым операциям, упрощающим анализ. Согласование содержимого данных со знакомой визуализацией улучшает обучение аналитиков и повышает их производительность. [5] Инициированный пользователем процесс навигации путем вызова страницы отображается в интерактивном режиме, через спецификацию срезов с помощью вращения и перехода вниз / вверх, иногда называется «срезом и кубиком». Общие операции включают в себя фрагменты и кости, детализацию, свертывание и поворот.
Срез - это выбор прямоугольного подмножества куба путем выбора единственного значения для одного из его измерений и создания нового куба с одним измерением меньше. [5] На рисунке показана операция нарезки: показатели продаж всех регионов продаж и всех категорий продуктов компании в 2005 и 2006 годах «вырезаны» из куба данных.
Игра в кости : операция игры в кости создает вложенный куб, позволяя аналитику выбирать определенные значения из нескольких измерений. [6] На рисунке показана операция нарезки кубиками: новый куб показывает показатели продаж ограниченного числа категорий продуктов, измерения времени и региона охватывают тот же диапазон, что и раньше.
Drill Down / Up позволяет пользователю перемещаться между уровнями данных, начиная от наиболее обобщенных (вверх) до наиболее подробных (вниз). [5] На рисунке показана операция детализации: аналитик переходит из итоговой категории «Outdoor-Schutzausrüstung», чтобы увидеть показатели продаж для отдельных продуктов.
Объединение : объединение включает суммирование данных по измерению. Правило резюмирования может быть агрегатной функцией , такой как вычисление итогов по иерархии или применение набора формул, таких как «прибыль = продажи - расходы». [5] Общие функции агрегирования могут быть дорогостоящими для вычисления при сворачивании: если они не могут быть определены из ячеек куба, они должны быть вычислены из базовых данных, либо вычисляя их в режиме онлайн (медленно), либо предварительно вычисляя их для возможных развертываний ( большое пространство). Функции агрегирования, которые могут быть определены из ячеек, известны как разложимые функции агрегирования и позволяют выполнять эффективные вычисления. [7] Например, его легко поддерживать COUNT, MAX, MIN,
иSUM
в OLAP, поскольку их можно вычислить для каждой ячейки куба OLAP, а затем свести воедино, поскольку общая сумма (или подсчет и т. д.) представляет собой сумму частичных сумм, но ее трудно поддерживать MEDIAN
, поскольку она должна быть вычислена для каждого вида отдельно: медиана набора не является медианой медиан подмножеств.
Pivot позволяет аналитику вращать куб в пространстве, чтобы увидеть его различные грани. Например, города можно расположить по вертикали, а продукты - по горизонтали при просмотре данных за конкретный квартал. Вращение может заменить продукты периодами времени, чтобы увидеть данные во времени для одного продукта. [5] [8]
На рисунке показана операция поворота: вращается весь куб, что дает новый взгляд на данные.
Математическое определение [ править ]
Этот раздел требует дополнительных ссылок для проверки . Июль 2012 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
В теории баз данных , OLAP куба [9] абстрактное представление проекции в качестве РСУБД отношения. Учитывая отношение порядка N , рассмотрим проекцию, в которой X , Y и Z являются ключевыми, а W - остаточным атрибутом . Характеризуя это как функцию ,
- f : ( X , Y , Z ) → W ,
атрибуты X , Y и Z соответствуют осям куба, а значение W соответствует элементу данных, который заполняет каждую ячейку куба.
Поскольку устройства двумерного вывода не могут с легкостью охарактеризовать три измерения, более практично проецировать «срезы» куба данных (мы говорим, что проектирование осуществляется в классическом векторном аналитическом смысле уменьшения размерности, а не в смысле SQL , хотя они и являются концептуально похожи),
- g : ( X , Y ) → W
который может подавлять первичный ключ, но все же иметь некоторое семантическое значение, возможно, часть триадного функционального представления для данного интересующего значения Z.
Мотивация [9], лежащая в основе OLAP- дисплеев, восходит к парадигме перекрестных отчетов СУБД 1980-х годов и к более ранним таблицам непредвиденных обстоятельств с 1904 года. Результатом является отображение в виде электронной таблицы, где значения X заполняют строку $ 1; значения Y заполняют столбец $ A; и значения g : ( X , Y ) → W заполняют отдельные ячейки на пересечении столбцов с меткой X и строк с меткой Y, так сказать, "юго-восток" от $ B $ 2, включая сам $ B $ 2.
См. Также [ править ]
- Бизнес-аналитика
- Сравнение серверов OLAP
- Куб данных
- Витрина данных
- Сбор данных
- Расширения интеллектуального анализа данных
- Быстрый анализ общей многомерной информации
- Многомерные выражения
- XML для анализа
Ссылки [ править ]
- ^ Грей, Джим; Босуорт, Адам; Обыватель, Андрей; Пирахеш, Хамид (1996). «Куб данных: оператор реляционного агрегирования, обобщающий группировку по, кросс-таблицу и промежуточные итоги». Труды Международной конференции по инженерии данных (ICDE) . С. 152–159. arXiv : cs / 0701155 . DOI : 10.1109 / ICDE.1996.492099 .
- ^ «Обзор онлайн-аналитической обработки (OLAP)» . support.office.com . Проверено 8 сентября 2018 .
- ^ «Cybertec выпускает кубы OLAP для PostgreSQL» . PostgreSQL. 2006-10-02. Архивировано из оригинала на 2013-07-06 . Проверено 5 марта 2008 .
- ^ "Oracle9i Data Warehousing Guide иерархия" . Лоренц-центр . Проверено 5 марта 2008 .
- ^ a b c d e f «Определения OLAP и серверов OLAP» . Совет OLAP. 1995 . Проверено 18 марта 2008 .
- ^ «Глоссарий терминов интеллектуального анализа данных» . Университет Альберты. 1999 . Проверено 17 марта 2008 .
- ^ Чжан 2017 , стр. 1.
- ^ «Компьютерная энциклопедия: многомерные взгляды» . Answers.com . Проверено 5 марта 2008 .
- ^ a b Грей, Джим ; Босуорт, Адам; Обыватель, Андрей; Приехеш, Хамид (1995-11-18). «Куб данных: оператор реляционного агрегирования, обобщающий группировку по, кросс-таблицу и промежуточные итоги» . Proc. 12-я Международная конференция по инженерии данных . IEEE. С. 152–159 . Проверено 9 ноября 2008 .
- Чжан, Чао (2017). Симметричная и асимметричная агрегатная функция в массово-параллельных вычислениях (Технический отчет).
Внешние ссылки [ править ]
- Даниэль Лемир (декабрь 2007 г.). «Хранилище данных и OLAP - библиография, ориентированная на исследования» . Архивировано из оригинала на 2013-07-06 . Проверено 5 марта 2008 .
- Словарь куба данных RDF
- Microsoft Azure: онлайн-аналитическая обработка (OLAP)
- Видео: мертв ли OLAP?