Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

HPCC (High-Performance Computing Cluster), также известный как DAS (Data Analytics Supercomputer), представляет собой платформу систем обработки большого объема данных с открытым исходным кодом, разработанную LexisNexis Risk Solutions . Платформа HPCC включает программную архитектуру, реализованную на массовых вычислительных кластерах, для обеспечения высокопроизводительной параллельной обработки данных для приложений, использующих большие данные . [1] Платформа HPCC включает конфигурации системы для поддержки как параллельной пакетной обработки данных (Thor), так и высокопроизводительных приложений онлайн-запросов с использованием индексированных файлов данных (Roxie). [2]Платформа HPCC также включает ориентированный на данные декларативный язык программирования для параллельной обработки данных, называемый ECL . [3]

Публичный выпуск HPCC был объявлен в 2011 году, после десяти лет собственной разработки (согласно LexisNexis). Это альтернатива Hadoop [4] и другим платформам больших данных . [5]

Системная архитектура [ править ]

Рисунок 2. Кластер обработки Thor

Архитектура системы HPCC включает две отдельные кластерные среды обработки Thor и Roxie , каждую из которых можно независимо оптимизировать для целей параллельной обработки данных.

Первая из этих платформ называется Thor , это средство обработки данных , общей целью которого является общая обработка огромных объемов необработанных данных любого типа для любых целей, но обычно используется для очистки и гигиены данных, обработки ETL ( извлечение, преобразование, загрузка ) данных. необработанные данные, связывание записей и разрешение сущностей, крупномасштабная специализированная комплексная аналитика и создание данных с ключами и индексов для поддержки высокопроизводительных структурированных запросов и приложений хранилищ данных. Название завода по переработке данных ThorЭто отсылка к мифическому скандинавскому богу грома с большим молотом, символизирующим дробление больших объемов необработанных данных в полезную информацию. Кластер Thor по своим функциям, среде выполнения, файловой системе и возможностям аналогичен платформам Google и Hadoop MapReduce .

На рисунке 2 показано представление физического обрабатывающего кластера Thor, который функционирует как механизм выполнения пакетных заданий для масштабируемых вычислительных приложений с интенсивным использованием данных. В дополнение к главному и подчиненному узлам Thor необходимы дополнительные вспомогательные и общие компоненты для реализации полной среды обработки HPCC.

Рисунок 3. Кластер обработки Roxie

Вторая из платформ параллельной обработки данных называется Roxie и работает как механизм быстрой доставки данных . Эта платформа разработана как высокопроизводительная онлайн-платформа для структурированных запросов и анализа или хранилище данных, обеспечивающее параллельное выполнение требований обработки доступа к данным для онлайн-приложений через интерфейсы веб-служб, поддерживающих тысячи одновременных запросов и пользователей со временем ответа менее секунды. Roxie использует распределенную индексированную файловую систему для обеспечения параллельной обработки запросов с использованием оптимизированной среды выполнения и файловой системы для высокопроизводительной онлайн-обработки. Кластер Roxie по своим функциям и возможностям аналогичен ElasticSearch и Hadoop с HBase.и добавлены возможности Hive , обеспечивающие предсказуемые задержки запросов почти в реальном времени. И Thor, и Roxie кластеры используют язык программирования ECL для реализации приложений, повышения непрерывности и производительности программистов.

На рисунке 3 показано представление физического обрабатывающего кластера Roxie, который функционирует как механизм выполнения онлайн-запросов для высокопроизводительных приложений запросов и хранилищ данных. Кластер Roxie включает несколько узлов с серверными и рабочими процессами для обработки запросов; дополнительный вспомогательный компонент, называемый сервером ESP, который предоставляет интерфейсы для внешнего клиентского доступа к кластеру; и дополнительные общие компоненты, которые используются совместно с кластером Thor в среде HPCC. Хотя кластер обработки Thor может быть реализован и использоваться без кластера Roxie, среда HPCC, которая включает кластер Roxie, также должна включать кластер Thor.Кластер Thor используется для создания распределенных индексных файлов, используемых кластером Roxie, и для разработки онлайн-запросов, которые будут развернуты с индексными файлами в кластере Roxie.

Рисунок 4. Архитектура программного обеспечения HPCC.

Архитектура программного обеспечения [ править ]

Архитектура программного обеспечения HPCC включает в себя кластеры Thor и Roxie, а также общие компоненты промежуточного программного обеспечения , внешний уровень связи, клиентские интерфейсы, которые предоставляют как услуги для конечных пользователей, так и инструменты управления системой, а также вспомогательные компоненты для поддержки мониторинга и облегчения загрузки и хранения файловой системы. данные из внешних источников. Обычно среда HPCC включает только кластеры Thor или кластеры Thor и Roxie, хотя Roxie иногда используется для построения собственных индексов. Общая архитектура программного обеспечения HPCC показана на рисунке 4.

Системы HPCC [ править ]

HPCC Systems (High Performance Computing Cluster) является частью LexisNexis Risk Solutions и был создан для продвижения и продажи программного обеспечения HPCC. В июне 2011 года он объявил о выпуске программного обеспечения по модели с двумя лицензиями с открытым исходным кодом. [6] [7] [8] [9]

HPCC Systems предлагает как Community Edition, так и Enterprise Edition. Community Edition можно загрузить бесплатно, включает исходный код и распространяется под лицензией Apache License 2.0. Enterprise Edition доступен по платной коммерческой лицензии и включает обучение, поддержку, компенсацию и дополнительные модули. В ноябре 2011 года HPCC Systems объявила о доступности своего кластера Thor Data Refinery в Amazon Web Services . [10] В январе 2012 года HPCC Systems анонсировала алгоритмы распределенного машинного обучения . [11]

См. Также [ править ]

  • Apache Hadoop
  • Apache Spark
  • Системы данных Aster
  • ECL (язык программирования, ориентированный на данные)
  • ElasticSearch
  • Сектор / Сфера
  • Машинное обучение
  • Уменьшение карты

Ссылки [ править ]

  1. ^ Справочник по облачным вычислениям , «Технологии обработки больших объемов данных для облачных вычислений», автор AM Миддлтон. Справочник по облачным вычислениям. Спрингер, 2010.
  2. ^ «Системы HPCC: Введение в HPCC (кластер высокопроизводительных вычислений)». 24 мая 2011 г. CiteSeerX  10.1.1.456.3571 . Цитировать журнал требует |journal=( помощь )
  3. ^ Справочник по интенсивным вычислениям , «ECL / HPCC: унифицированный подход к большим данным» AM Миддлтона. Справочник по интенсивным вычислениям. Спрингер, 2011.
  4. ^ «LexisNexis будет открывать исходный код своей альтернативы Hadoop для обработки больших данных» . Читайте, пишите . 15 июня 2011 . Проверено 20 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  5. ^ «9 полезных инструментов для работы с большими данными с открытым исходным кодом» . EnterpriseAppsToday . 11 ноя 2015 . Проверено 18 ноября 2015 года . CS1 maint: обескураженный параметр ( ссылка )
  6. ^ «LexisNexis с открытым исходным кодом - убийца Hadoop» . ГигаОМ . 15 июня 2011 . Проверено 8 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  7. ^ «LexisNexis будет открывать исходный код своей альтернативы Hadoop для обработки больших данных» . Читайте, пишите . 15 июня 2011 . Проверено 20 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  8. ^ "HPCC - новый / старый ребенок в городе, чтобы противостоять Hadoop" . NetworkWorld . 16 июня 2011 . Проверено 2 декабря 2014 . CS1 maint: обескураженный параметр ( ссылка )
  9. ^ «LexisNexis присоединяется к Linux Foundation» . Фонд Linux . 17 июня 2011 . Проверено 29 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  10. ^ «HPCC объявляет о доступности кластера ETL на Amazon Web Services» . Облачные вычисления сегодня . 17 декабря 2012 . Проверено 30 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )
  11. ^ "HPCC Systems Intros Machine Learning Beta" . Датанами . 31 января 2012 . Проверено 29 ноября 2014 года . CS1 maint: обескураженный параметр ( ссылка )

Внешние ссылки [ править ]

  • Сандия видит спираль проблем с управлением данными
  • Sandia National Laboratories использует суперкомпьютер Data Analytics (DAS) от LexisNexis Risk & Information Analytics Group, который предлагает революционные высокопроизводительные вычисления для решения задач управления и анализа данных
  • Модели программирования для кластера высокопроизводительных вычислений LexisNexis
  • Суперкомпьютер LexisNexis Data Analytics [ постоянная мертвая ссылка ]
  • Системы LexisNexis HPCC
  • Ссылка на термин BORPS (миллиарды записей в секунду)
  • LexisNexis применяет магию управления данными к научным данным
  • Кластеры высокопроизводительных вычислений (HPCC) и сертификат аналитики больших данных - автономный
  • FAU получает грант Национального научного фонда быстрого реагирования на разработку инновационной компьютерной модели распространения лихорадки Эбола
  • CPL Online обеспечивает добавленную стоимость для клиентов через свою платформу больших данных
  • Системы HPCC