Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Actian Vector (ранее известная как VectorWise ) - это система управления реляционными базами данных SQL, разработанная для обеспечения высокой производительности в приложениях аналитических баз данных. [3] Он опубликовал рекордные результаты теста TPC-H Совета по производительности обработки транзакций для баз данных размером 100 ГБ, 300 ГБ, 1 ТБ и 3 ТБ на некластеризованном оборудовании. [4] [5] [6] [7]

Vectorwise возникла из исследовательского проекта X100, который проводился в Centrum Wiskunde & Informatica (CWI, Голландский национальный исследовательский институт математики и компьютерных наук) в период с 2003 по 2008 год. В 2008 году он был выделен как новая компания и приобретен Ingres Corporation в 2011 году. [8] Он был выпущен как коммерческий продукт в июне 2010 года, [9] [10] [11] [12] сначала для 64-битной платформы Linux, а затем и для Windows. Начиная с версии 3.5 в апреле 2014 года название продукта было сокращено до «Вектор». [13] В июне 2014 года был анонсирован Actian Vortex - кластерная MPP- версия Vector, работающая в Hadoop.с хранением в HDFS . [14] [15] Actian Vortex позже был переименован в Actian Vector в Hadoop.

Технология [ править ]

Базовая архитектура и принципы проектирования механизма X100 базы данных VectorWise были хорошо описаны в двух докторских диссертациях основателей VectorWise Марцина Жуковски: «Баланс выполнения векторизованных запросов с хранилищем с оптимизированной пропускной способностью» [16] и Шандора Хемана: «Обновление хранилищ сжатых столбцов» ", [17] под руководством другого основателя, профессора Петера Бонча . Механизм X100 был интегрирован с интерфейсом Ingres SQL, что сделало базу данных управляемой с использованием синтаксиса Ingres SQL и набора клиентских инструментов и инструментов администратора базы данных Ingres . [18]

Архитектура выполнения запроса использует «Vectorized Query Execution» - обработку кусков подходящих к кешу векторов данных. Это позволяет задействовать принципы векторной обработки и единой инструкции, множественных данных (SIMD) - для одновременного выполнения одной и той же операции с множеством данных и использования параллелизма на уровне данных на современном оборудовании. Это также снижает накладные расходы, обнаруживаемые при традиционной "построчной обработке" в большинстве СУБД.

Хранилище базы данных находится в сжатом столбцовом формате [19] с оптимизированным для сканирования диспетчером буферов. В Actian Vortex в HDFS используется тот же проприетарный формат.

Загрузка больших объемов данных поддерживается посредством прямого добавления в стабильное хранилище, в то время как небольшие транзакционные обновления поддерживаются с помощью запатентованных [20] Позиционных дельта-деревьев (PDT) [17] [21] - специализированных B-древовидных структур индексированных различий. поверх стабильного хранилища, которое легко исправляется во время сканирования и прозрачно передается в стабильное хранилище в фоновом процессе. Метод хранения различий в структурах, подобных патчу, и массовая перезапись стабильного хранилища позволил работать в файловой системе, такой как HDFS, в которой файлы доступны только для добавления. [14]

История [ править ]

Вехи [ править ]

Сравнительный тест производительности MonetDB TPC-H Совета по производительности обработки транзакций, проведенный его первоначальным создателем в Centrum Wiskunde & Informatica (CWI) в 2003 году, показал возможности для улучшения его производительности в качестве аналитической базы данных. В результате исследователи CWI предложили новую архитектуру с использованием конвейерной обработки запросов («векторизованная обработка») для повышения производительности аналитических запросов. Это привело к созданию проекта «X100» с намерением разработать новое ядро ​​для MonetDB, которое будет называться «MonetDB / X100». [16] [22] [23]

Команда проекта X100 выиграла премию DaMoN Best Paper 2007 за статью «Векторизованная обработка данных на ядре широкополосного доступа» [24] [25], а также награду DaMoN Best Paper 2008 за статью «DSM против NSM: производительность ЦП. Компромиссы в блочно-ориентированной обработке запросов ". [26] [27]

В августе 2009 года создатели проекта X100 выиграли «Десятилетнюю награду за лучшую работу» на 35-й Международной конференции по очень большим базам данных (VLDB) за свой доклад 1999 года «Архитектура базы данных, оптимизированная для нового узкого места: доступ к памяти». VLDB признала, что команда проекта добилась большого прогресса в реализации идей, содержащихся в документе, за предыдущие 10 лет. [28] Центральная посылка статьи состоит в том, что традиционные системы реляционных баз данных были разработаны в конце 1970-х - начале 1980-х годов, когда производительность базы данных определялась временем, необходимым для чтения и записи данных на жесткий диск. На тот момент доступный процессорбыл относительно медленным, а основная память была относительно небольшой, поэтому за один раз в память можно было загружать очень мало данных. Со временем аппаратное обеспечение улучшилось: скорость процессора и объем памяти удваивались примерно каждые два года в соответствии с законом Мура , но конструкция традиционных систем реляционных баз данных не была адаптирована. Исследовательская группа CWI описала улучшения в коде базы данных и структурах данных для наилучшего использования современного оборудования. [29]

В 2008 году проект X100 был выделен из MonetDB как отдельный проект и переименован в «VectorWise». Соучредителями были Петер А. Бонч и Марцин Жуковски. [30] [31]

В июне 2010 года технология VectorWise был официально объявлен Ingres Corporation , [10] [32] с выходом Ingres VectorWise 1.0. [33]

В марте 2011 года был выпущен VectorWise 1.5 [34], в котором был достигнут рекордный результат теста TPC-H 100 ГБ. [5] [35] Новые функции включают параллельное выполнение запросов (один запрос выполняется на нескольких ядрах ЦП), улучшенную массовую загрузку и расширенную поддержку SQL.

В июне 2011 года был выпущен VectorWise 1.6 [6], в котором были опубликованы рекордные результаты некластеризованных тестов TPC-H 100 ГБ, [36] 300 ГБ [37] и 1 ТБ [38] .

В декабре 2011 года был выпущен VectorWise 2.0 [39] с новой поддержкой SQL для аналитических функций, таких как ранжирование и процентиль, и улучшенные типы данных даты, времени и меток времени, а также поддержка разлива диска при хэш-соединениях и агрегации.

В июне 2012 года был выпущен VectorWise 2.5. [40] В этом выпуске формат хранения был реорганизован, чтобы позволить хранить базу данных в нескольких местах, механизм распространения фоновых обновлений от PDT к стабильному хранилищу был расширен, чтобы разрешить перезапись только измененных блоков вместо полной перезаписи, и новый запатентованный [41] Был представлен Predictive Buffer Manager (PBM). [42]

В марте 2013 года был выпущен VectorWise 3.0. [43] Новые функции включают более эффективный механизм хранения, поддержку большего количества типов данных и аналитических функций SQL, расширенные функции DDL и улучшенную доступность для мониторинга и профилирования.

В марте 2014 года был выпущен Actian Vector 3.5 с новым переименованным и сокращенным названием. [13] Новые функции включали поддержку секционированных таблиц, улучшенное разделение на диск, возможности оперативного резервного копирования и улучшенную поддержку SQL - например, MERGE/UPSERTоперации DML FIRST_VALUEи LAST_VALUEфункции агрегирования окон.

В марте 2015 года был выпущен Actian Vector 4.

Кластерное решение [ править ]

В июне 2014 года на Hadoop Summit 2014 в Сан-Хосе Actian анонсировал Actian Vortex - кластерную MPP-версию Vector с таким же уровнем поддержки SQL, работающую в Hadoop с хранилищем непосредственно в HDFS. [14]

С тех пор был выпущен Actian Vortex, позже переименованный в Actian Vector в Hadoop, и некластеризованные выпуски Actian Vector также обновлены для соответствия. [1] Actian Vector в Hadoop 4 был выпущен в декабре 2015 года.

Расширение в облако [ править ]

В апреле 2019 года Actian Avalanche был выпущен в качестве облачной опции для высокопроизводительного Actian Vector.

Текущие выпуски [ править ]

Следующие выпуски доступны и поддерживаются Actian по состоянию на май 2019 года.

Вектор [ править ]

  • Actian Vector 5.0 был выпущен в июле 2016 года.
  • Actian Vector 5.1 был выпущен в июне 2018 года.

Вектор в Hadoop [ править ]

  • Actian Vector в Hadoop 5.0 был выпущен в октябре 2017 г.
  • Actian Vector в Hadoop 5.1 был выпущен в ноябре 2018 г.

Actian Avalanche [ править ]

  • Версия 5.1 AWS была выпущена в апреле 2019 года.
  • Версия 5.1 Azure была выпущена в октябре 2019 года.

См. Также [ править ]

  • Система управления базами данных
  • Реляционная база данных
  • MonetDB
  • Ingres (база данных)

Ссылки [ править ]

  1. ^ a b "Выпуски Actian Vector" (PDF) . Проверено 20 августа 2016 .
  2. ^ «Вектор в Hadoop 5.0 - новые функции, о которых вам следует позаботиться» . 2017-09-19 . Проверено 4 апреля 2018 .
  3. ^ "Vectorwise Enterprise" . Actian Corporation . Проверено 3 мая 2012 года .
  4. ^ «TPC-H - Десять лучших результатов производительности - без кластеров» . Совет по производительности обработки транзакций . Проверено 3 мая 2012 года .
  5. ^ a b «Vectorwise разбивает запись TPC-H с коэффициентом масштабирования 100, обеспечивая 340% от предыдущей лучшей записи» (пресс-релиз). Actian Corporation. 15 февраля 2011 . Проверено 7 февраля +2016 .
  6. ^ a b «Vectorwise безоговорочно побила рекорды тестов TPC-H объемом 300 ГБ и 1 ТБ» (пресс-релиз). Actian Corporation. 4 мая 2011 . Проверено 7 февраля 2011 года .
  7. ^ «Платформа Actian Analytics превосходит все остальные в 2 раза, устанавливает новый рекорд в последнем тесте TPC-H» . Actian Corporation . Проверено 20 авг 2016 .
  8. ^ "Компания VectorWise, дочерняя CWI, продана Ingres Corporation" .
  9. Кларк, Гэвин (2 февраля 2010 г.). «VectorWise Энгра поднимается, чтобы ответить Microsoft» . Реестр .
  10. ^ a b Бэбкок, Чарльз (9 июня 2010 г.). «Ingres представляет ядро ​​СУБД VectorWise» . Информационная неделя .
  11. ^ Сулеман, Кхидр (8 июня 2010). «Ingres запускает ядро ​​базы данных VectorWise» . V3.co.uk .
  12. ^ Zukowski, Marcin; Бонч, Питер (2012). «От x100 до векторного». Материалы международной конференции по управлению данными 2012 г. - SIGMOD '12 . п. 861. DOI : 10,1145 / 2213836,2213967 . ISBN 978-1-4503-1247-9.
  13. ^ a b "Pssst: Хотите узнать о Actian Vector 3.5?" . 2016-05-04.
  14. ^ a b c «Вектор (мудрый) идет на Hadoop» .
  15. ^ «Питер Бонц - Actian Vector на Hadoop: первая СУБД промышленного уровня, действительно использующая Hadoop» .
  16. ^ a b ukowski, Marcin (11 сентября 2009 г.). «Уравновешивание выполнения векторных запросов с хранилищем с оптимизированной пропускной способностью» (PDF) . Universiteit van Amsterdam . Проверено 7 февраля +2016 . Цитировать журнал требует |journal=( помощь )
  17. ^ a b Хеман, Шандор (2015). «Обновление хранилищ сжатых столбцов» (PDF) . Vrije Universiteit Amsterdam . Проверено 7 февраля +2016 . Цитировать журнал требует |journal=( помощь )
  18. ^ Инкстер, Дуг; Луковски, Марцин; Бонч, Питер (сентябрь 2011 г.). «Интеграция VectorWise с Ingres» (PDF) . Запись SIGMOD . 40 (3): 45–53. DOI : 10.1145 / 2070736.2070747 . ЛВП : 1871/33100 . Проверено 7 февраля +2016 .
  19. ^ Zukowski, Marcin; Бонч, Питер (март 2012 г.). "Vectorwise: Beyond Column Stores" (PDF) . Бюллетень IEEE Data Engineering . 35 (1): 21–27 . Проверено 4 мая 2012 года .
  20. ^ Заявка США 20100235335 , Шандор ABC Heman, Питер А. Boncz, Marcin Zukowski, Николас Дж Nes, «Архитектура Column-хранилище базы данных с использованием позиционной дельты дерева системы и методы обновления», опубликованной 2010-09-16 
  21. ^ Хеман, Шандор; Луковски, Марцин; Нес, Нильс; Сидирургос, Лефтерис; Бонч, Питер. «Обработка позиционного обновления в колоночных хранилищах» (PDF) . Конференция SIGMOD 2010 : 543–554.
  22. ^ "Домашняя страница Питера Бонча" . Проверено 7 февраля +2016 .
  23. ^ «Более быстрая технология баз данных с MonetDB / X100» . CWI Амстердам . Проверено 4 мая 2012 года .
  24. ^ Héman, S .; Нес, штат Нью-Джерси; Жуковски, М .; Бонц, PA (2007). «Векторизованная обработка данных на ядре широкополосного доступа» . Universiteit van Amsterdam . Проверено 4 мая 2012 года . Цитировать журнал требует |journal=( помощь )
  25. ^ «Третий международный семинар по управлению данными на новом оборудовании (DaMoN 2007)» . Школа компьютерных наук Карнеги-Меллона (SCS) . Проверено 4 мая 2012 года .
  26. ^ Zukowski, Marcin; Нес, Нильс; Бонц, Питер (2008). «DSM против NSM». Материалы 4-го международного семинара по управлению данными на новом оборудовании - DaMoN '08 . п. 47. DOI : 10,1145 / 1457150,1457160 . ISBN 9781605581842.
  27. ^ «Четвертый международный семинар по управлению данными на новом оборудовании (DaMoN 2008)» . Школа компьютерных наук Карнеги-Меллона . Проверено 4 мая 2012 года .
  28. ^ "10-летняя награда за лучшую работу - VLDB 2009" . Международная конференция по очень большим базам данных . Проверено 4 мая 2012 года .
  29. ^ Бонц, Питер; Манегольд, Стефан; Керстен, Мартин Л. (15 июня 1999 г.). Архитектура базы данных оптимизирована для нового узкого места: доступа к памяти (PDF) . Материалы 25-й Международной конференции по очень большим базам данных . Universiteit van Amsterdam . С. 54–65. ISBN  1-55860-615-7. Проверено 11 декабря 2013 года .
  30. Курт Монаш (25 апреля 2013 г.). «Прощай, VectorWise, прощай, ParAccel?» . СУБД2 . Проверено 11 декабря 2013 года .
  31. ^ "Питер Бонц" . Веб-страница персонала . CWI . Проверено 11 декабря 2013 года .
  32. Кларк, Дон (22 сентября 2011 г.). «Фирма, занимающаяся разработкой программного обеспечения баз данных, пытается« приложения действий » » . The Wall Street Journal .
  33. ^ "Ingres Vectorwise 1.0" . Проверено 7 февраля +2016 .
  34. ^ «Ранний взгляд на Actian VectorWise 1.5» .
  35. ^ "TPC-H SF100 Vectorwise 1.5" .
  36. ^ "TPC-H SF100 Vectorwise 1.6" .
  37. ^ "TPC-H SF300 Vectorwise 1.6" .
  38. ^ "TPC-H SF1000 Vectorwise 1.6" .
  39. ^ "Еще более быстрый VectorWise" .
  40. ^ «Actian выпускает Vectorwise 2.5 - рекордная база данных стала еще быстрее» .
  41. ^ B1 Патент США 8825959 B1 , Михал Свитаковски, Питер Бонц, Марцин Жуковски, «Метод и устройство для использования прогнозирования времени доступа к данным для улучшения политик буферизации данных», опубликовано 02.09.2014. 
  42. ^ Свитаковский, Михал; Бонц, Питер; Луковский, Марцин (август 2012 г.). «От совместного сканирования к прогнозируемому управлению буфером» (PDF) . Труды эндаумента VLDB . VLDB 2012. 5 (12). arXiv : 1208.4170 . Bibcode : 2012arXiv1208.4170S . Проверено 7 февраля +2016 .
  43. ^ «Actian объявляет о доступности Vectorwise 3.0 для получения быстрых ответов из больших данных» .

Внешние ссылки [ править ]

  • Официальный сайт Actian Vector
  • Официальный сайт Actian Vector в Hadoop
  • Официальный сайт Actian Avalanche