В области вычислений термин « устройство хранилища данных» (DWA) был придуман Фостером Хиншоу [1] [2] для обозначения компьютерной архитектуры хранилищ данных (DW), специально предназначенной для анализа и обнаружения больших данных, которая проста в использовании (а не ранее. конфигурация) и высокая производительность для рабочей нагрузки. DWA включает интегрированный набор серверов, хранилищ, операционных систем и баз данных .
В маркетинге этот термин расширился и включает предварительно установленное и оптимизированное аппаратное и программное обеспечение, а также аналогичные программные системы [3], которые продвигаются как простые в установке на определенные рекомендуемые конфигурации оборудования или предварительно настроенные как целостная система. [4] [5] Это маркетинговое использование термина и не отражает его техническое определение.
DWA разработан специально для высокопроизводительной аналитики больших данных и поставляется в виде простой в использовании пакетной системы. Устройства DW продаются для объемов данных в диапазоне от терабайта до петабайта .
Технология
Устройство хранилища данных (DWA) имеет несколько характеристик, которые отличают эту архитектуру от аналогичных машин в центре обработки данных , таких как корпоративное хранилище данных (EDW).
- DWA имеет очень тесную интеграцию своих внутренних компонентов, которые оптимизированы для «ориентированных на данные» операций в отличие от «вычислительно-ориентированных» операций. Последние, как правило, делают упор на количество процессоров, ядер и пропускную способность сети.
- DWA прост в использовании и установке. В отличие от «предварительной конфигурации» компонентов, DWA имеет очень мало переключателей или опций конфигурации. Устранение таких опций значительно снижает количество ошибок конфигурации - основной причины сбоев в больших системах.
- DWA оптимизирован для анализа больших данных . Напротив, предыдущие архитектуры (включая параллельные) были ориентированы на «корпоративное хранилище данных», являющееся универсальным хранилищем данных и вспомогательную аналитику в качестве вспомогательной задачи.
Большинство устройств DW используют архитектуры с массовой параллельной обработкой (MPP) для обеспечения высокой производительности запросов и масштабируемости платформы . Архитектура MPP состоит из независимых процессоров или серверов, работающих параллельно. Большинство архитектур MPP реализуют «архитектуру без совместного использования ресурсов », в которой каждый сервер работает автономно и управляет своей собственной памятью и диском. Устройства DW распределяют данные на выделенные дисковые накопители, подключенные к каждому серверу устройства. Это распределение позволяет устройствам DW разрешать реляционные запросы путем параллельного сканирования данных на каждом сервере. Подход «разделяй и властвуй» обеспечивает высокую производительность и линейно масштабируется по мере добавления новых серверов в архитектуру.
История
«Устройство хранилища данных» - это термин, придуманный Фостером Хиншоу [1] [2], основателем Netezza . При создании первого устройства хранилища данных Hinshaw и Netezza использовали основы, разработанные Model 204 , Teradata и другими, чтобы создать новую категорию для эффективного решения проблем потребительской аналитики, предоставив модульную, масштабируемую и простую в управлении систему баз данных, которая стоит дорого. эффективный.
Архитектуры баз данных MPP имеют долгую историю. Некоторые считают первоначальный продукт Teradata первым устройством DW - или устройством Бриттона-Ли . [6] [7] Teradata приобрела Britton Lee - переименованную в ShareBase - в июне 1990 года. [8] Другие не согласны, считая устройства «разрушительной технологией» для Teradata [9]
Дополнительные поставщики, включая Tandem Computers и Sequent Computer Systems, также предлагали архитектуры MPP в 1980-х годах. Компоненты с открытым исходным кодом и стандартные вычислительные компоненты способствовали возрождению устройств хранилищ данных MPP. Достижения в области технологий снизили затраты и повысили производительность устройств хранения, многоядерных процессоров и сетевых компонентов. Продукты РСУБД с открытым исходным кодом , такие как Ingres и PostgreSQL , сокращают затраты на лицензии на программное обеспечение и позволяют поставщикам DW-устройств сосредоточиться на оптимизации, а не на предоставлении базовых функций базы данных. Linux с открытым исходным кодом стал обычной операционной системой для устройств DW.
Другие поставщики устройств DW используют специализированное оборудование и расширенное программное обеспечение вместо архитектур MPP. [10] Netezza анонсировала «устройство обработки данных» в 2003 году и использовала специализированное программируемое оборудование вентильной матрицы . [11] Kickfire последовал в 2008 году с тем, что они назвали потоком данных «чип sql». [12] [ необходима ссылка ]
В 2009 году появилось больше техники DW. IBM интегрировала свое хранилище InfoSphere (ранее DB2 Warehouse) со своими собственными серверами и хранилищем, чтобы создать IBM InfoSphere Balanced Warehouse . Netezza представила свою платформу TwinFin на базе стандартного оборудования IBM. Другие поставщики устройств DW также установили партнерские отношения с крупными поставщиками оборудования. DATAllegro , до приобретения Microsoft , сотрудничал с EMC Corporation и Dell и внедрил Ingres с открытым исходным кодом для Linux. Greenplum сотрудничает с Sun Microsystems и внедряет базу данных Greenplum (на основе PostgreSQL) в Solaris с использованием файловой системы ZFS . HP Neoview использует HP NonStop SQL .
На рынке также наблюдается появление пакетов хранилищ данных, в которых поставщики объединяют свое оборудование и программное обеспечение баз данных в качестве платформы хранилища данных. Oracle Инициатива Optimized Warehouse сочетает в себе базу данных Oracle с аппаратными средствами от различных производителей компьютеров ( Dell , EMC , HP , IBM , SGI и Sun Microsystems ). Оптимизированные склады Oracle предлагают предварительно проверенные конфигурации, а программное обеспечение баз данных поставляется предустановленным. В сентябре 2008 года Oracle начала предлагать более классическое устройство - HP Oracle Database Machine, совместно разработанную платформу под совместным брендом, которую Oracle продавала и поддерживала, а HP построила конфигурации специально для Oracle. [13] [14] В сентябре 2009 года Oracle выпустила систему Exadata второго поколения , основанную на приобретенном ими оборудовании Sun Microsystems . [15]
Смотрите также
- Бизнес-аналитика (BI)
- Сбор данных
- Витрина данных
- Хранилище данных
Рекомендации
- ^ a b Infostor »Представляем« устройства хранилищ данных »
- ^ a b TDWI »Еще одно устройство хранилища данных на подходе!
- ^ Блог Queries From Hell »Когда устройство не является устройством?
- ^ DBMS2 - Службы системы управления базами данных »Архив блога» Устройства хранилища данных - факты и вымысел
- ^ Омер Трайман, Ален Кролотт , Дэвид Стейнхофф , Рагхунат Намбьяр , Мейкель Поесс : База данных не тостеры: основа для сравнения устройств хранилищ данных
- ^ Kobielus, Джеймс (22 апреля 2008). «Официально Teradata Goes Appliance» . Архивировано из оригинального 29 сентября 2011 года . Проверено 14 января 2011 .
Компания Teradata фактически завоевала рынок устройств DW четверть века назад, когда представила первое в длинной линейке предварительно настроенных, предварительно оптимизированных решений, сочетающих процессоры, хранилище, программное обеспечение и базу данных для удовлетворения самых требовательных аналитических требований и поддержки принятия решений.
CS1 maint: обескураженный параметр ( ссылка ) - ^ «Машины баз данных и устройства хранилищ данных - первые дни» . Monash Research. 15 сентября 2008 . Проверено 15 января 2011 .
Но для всех практических целей первыми двумя значительными поставщиками «машин баз данных» были Britton-Lee и Teradata. А поскольку Бриттон-Ли в конечном итоге был продан Teradata (после краткого изменения названия на ShareBase), Teradata имеет право на любую историческую славу, полученную благодаря инновациям в категории устройств управления базами данных.
CS1 maint: обескураженный параметр ( ссылка ) - ^ All, Ann (6 апреля 2007 г.). "Подойдет ли вам устройство хранилища данных?" . Проверено 14 января 2011 .
У DATAllegro есть сайт в Sears. Sears использует [устройство] в качестве внешнего интерфейса к своему хранилищу Teradata для вычисления агрегатов. Поэтому, когда они хотят нарезать кубиками, сколько мы продали, в каких магазинах и какого цвета, они используют это устройство ... Я думаю, что [устройства] могут стать революционной технологией для Teradata.
CS1 maint: обескураженный параметр ( ссылка ) - ^ [1]
- ^ «Сервер производительности Netezza (NPS ™) серии 8000» . Веб-страница продукта . Netezza. Архивировано из оригинала 3 февраля 2004 года . Проверено 16 августа 2013 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Архивная копия» . Архивировано из оригинала на 2009-05-24 . Проверено 18 июля 2009 .CS1 maint: заархивированная копия как заголовок ( ссылка )
- ^ Oracle Performance Architect Кевин Клоссен - Oracle Exadata Storage Server
- ^ «Oracle Exadata - в чем преимущество?» . Архивировано из оригинала на 2008-11-20 . Проверено 19 ноября 2008 .
- ^ Алексей Горбачев (15 сентября 2009 г.). «Представление OLTP Oracle Database Machine и Exadata v2» . Блог . Пифийский . Проверено 16 августа 2013 года . CS1 maint: обескураженный параметр ( ссылка )
Внешние ссылки
- Устройства хранилищ данных в Curlie
- СУБД2 - Размещение устройств хранилища данных