Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

GPFS , общая параллельная файловая система (под торговой маркой IBM Spectrum Scale ) [1] - это высокопроизводительное программное обеспечение кластерной файловой системы, разработанное IBM . Его можно развернуть в распределенном параллельном режиме с общим диском или без совместного использования ресурсов или в их комбинации. Он используется многими крупнейшими коммерческими компаниями мира, а также некоторыми суперкомпьютерами из списка 500 лучших . [2] Например, это файловая система саммита [3] в Национальной лаборатории Ок-Ридж.который был самым быстрым суперкомпьютером в мире в списке суперкомпьютеров Top500 за ноябрь 2019 года [4] . Summit - это система на 200 Петафлопс , состоящая из более чем 9 000 микропроцессоров IBM POWER и 27 000 графических процессоров NVIDIA Volta . Файловая система хранения под названием Alpine [5] имеет 250 ПБ хранилища с использованием Spectrum Scale на оборудовании хранения IBM ESS, способное примерно 2,5 ТБ / с для последовательного ввода-вывода и 2,2 ТБ / с для случайного ввода-вывода.

Как и типичные файловые системы кластера, GPFS обеспечивает одновременный высокоскоростной доступ к файлам для приложений, выполняющихся на нескольких узлах кластера. Он может быть использован с AIX кластеров, Linux кластеров, [6] на Microsoft Windows Server или гетерогенного кластера AIX, Linux и Windows , узлы , работающие на x86 , СИЛЫ или IBM Z процессорных архитектур. Помимо предоставления возможностей хранения файловой системы, он предоставляет инструменты для управления и администрирования кластера GPFS и обеспечивает совместный доступ к файловым системам с удаленных кластеров.

История [ править ]

GPFS начиналась как файловая система Tiger Shark , исследовательский проект исследовательского центра IBM в Алмадене еще в 1993 году. Tiger Shark изначально был разработан для поддержки мультимедийных приложений с высокой пропускной способностью. Оказалось, что эта конструкция хорошо подходит для научных вычислений. [7]

Другим предком является файловая система IBM Vesta , разработанная в качестве исследовательского проекта в Исследовательском центре Томаса Дж. Ватсона IBM в период с 1992 по 1995 год. [8] Веста представила концепцию разделения файлов для удовлетворения потребностей параллельных приложений, работающих на высокопроизводительных мультикомпьютерах с параллельный ввод / выводподсистемы. При разбиении файл представляет собой не последовательность байтов, а несколько непересекающихся последовательностей, к которым можно обращаться параллельно. Разделение таково, что оно абстрагирует количество и тип узлов ввода-вывода, на которых размещена файловая система, и позволяет создавать множество логически разделенных представлений файлов, независимо от физического распределения данных в узлах ввода-вывода. Непересекающиеся последовательности организованы так, чтобы соответствовать отдельным процессам параллельного приложения, что позволяет улучшить масштабируемость. [9] [10]

Vesta была коммерциализирована как файловая система PIOFS примерно в 1994, [11] и была заменена GPFS примерно в 1998. [12] [13] Основное различие между старой и новой файловыми системами состояло в том, что GPFS заменила специализированный интерфейс, предлагаемый Vesta / PIOFS, на стандартный Unix API : все функции для поддержки высокопроизводительного параллельного ввода-вывода были скрыты от пользователей и реализованы под капотом. [7] [13]

Spectrum Scale доступен на IBM AIX с 1998 года, на Linux с 2001 года и на Windows Server с 2008 года.

Сегодня он используется многими из 500 лучших суперкомпьютеров, включенных в список 500 лучших суперкомпьютеров. С момента своего создания он был успешно развернут для многих коммерческих приложений, включая цифровые мультимедиа, сеточную аналитику и масштабируемые файловые службы.

В 2010 году IBM анонсировала версию GPFS, которая включала возможность, известную как GPFS-SNC, где SNC означает кластер без общего доступа. Он был официально выпущен с GPFS 3.5 в декабре 2012 года и теперь известен как FPO [14] (оптимизатор размещения файлов). Это позволяет использовать локально подключенные диски в кластере серверов, подключенных к сети, вместо того, чтобы требовать выделенных серверов с общими дисками (например, с использованием SAN). FPO подходит для рабочих нагрузок с высокой локальностью данных, таких как кластеры баз данных без совместного использования, такие как SAP HANA и DB2 DPF, и может использоваться как файловая система, совместимая с HDFS .

Архитектура [ править ]

Это кластерная файловая система . Он разбивает файл на блоки заданного размера, менее 1 мегабайта каждый, которые распределяются по нескольким узлам кластера.

Система хранит данные на стандартных томах блочного хранилища, но включает в себя внутренний уровень RAID, который может виртуализировать эти тома для обеспечения избыточности и параллельного доступа, подобно системе блочного хранилища RAID. Он также имеет возможность репликации между томами на более высоком файловом уровне.

Особенности архитектуры включают

  • Распределенные метаданные, включая дерево каталогов. Нет единого «контроллера каталогов» или «сервера индекса», отвечающего за файловую систему.
  • Эффективное индексирование записей каталогов для очень больших каталогов.
  • Распределенная блокировка. Это обеспечивает полную семантику файловой системы POSIX , включая блокировку монопольного доступа к файлам.
  • Распознавание разделов. Сбой сети может разделить файловую систему на две или более групп узлов, которые могут видеть только узлы своей группы. Это можно обнаружить с помощью протокола пульса, и при возникновении раздела файловая система остается активной для самого большого сформированного раздела. Это предлагает постепенную деградацию файловой системы - некоторые машины будут продолжать работать.
  • Обслуживание файловой системы можно выполнять в режиме онлайн. Большинство рутинных операций по обслуживанию файловой системы (добавление новых дисков, перебалансировка данных на дисках) можно выполнять, пока файловая система находится в рабочем состоянии. Это обеспечивает более частую доступность файловой системы и дольше сохраняет доступность самого кластера суперкомпьютера.

Другие функции включают высокую доступность, возможность использования в гетерогенном кластере, аварийное восстановление, безопасность, DMAPI , HSM и ILM .

По сравнению с распределенной файловой системой Hadoop (HDFS) [ править ]

Файловая система Hadoop HDFS предназначена для хранения аналогичных или больших объемов данных на стандартном оборудовании, то есть в центрах обработки данных без дисков RAID и сети хранения данных (SAN).

  • HDFS также разбивает файлы на блоки и сохраняет их на разных узлах файловой системы.
  • GPFS имеет полную семантику файловой системы Posix.
  • GPFS распределяет индексы каталогов и другие метаданные по файловой системе. Hadoop, напротив, сохраняет это на первичных и вторичных узлах имен, больших серверах, которые должны хранить всю информацию индекса в ОЗУ.
  • GPFS разбивает файлы на небольшие блоки. Hadoop HDFS любит блоки размером 64 МБ и более, так как это снижает требования к хранилищу Namenode. Маленькие блоки или много маленьких файлов быстро заполняют индексы файловой системы, поэтому ограничьте размер файловой системы.

Управление жизненным циклом информации [ править ]

Пулы хранения позволяют группировать диски в файловой системе. Администратор может создавать уровни хранения, группируя диски по характеристикам производительности, местоположения или надежности. Например, один пул может состоять из высокопроизводительных дисков Fibre Channel, а другой - более экономичного хранилища SATA.

Набор файлов - это поддерево пространства имен файловой системы, которое позволяет разделить пространство имен на более мелкие и более управляемые единицы. Наборы файлов обеспечивают административную границу, которую можно использовать для установки квот и указывать в политике для управления начальным размещением или переносом данных. Данные в одном наборе файлов могут находиться в одном или нескольких пулах хранения. Расположение файловых данных и способ их переноса зависит от набора правил в политике, определяемой пользователем.

Существует два типа определяемых пользователем политик: размещение файлов и управление файлами. Политики размещения файлов направляют данные файлов по мере их создания в соответствующий пул хранения. Правила размещения файлов выбираются по таким атрибутам, как имя файла, имя пользователя или набор файлов. Политики управления файлами позволяют перемещать или реплицировать данные файла или удалять файлы. Политики управления файлами можно использовать для перемещения данных из одного пула в другой без изменения местоположения файла в структуре каталогов. Политики управления файлами определяются атрибутами файла, такими как время последнего доступа, имя пути или размер файла.

Механизм обработки политик масштабируем и может запускаться на многих узлах одновременно. Это позволяет применять политики управления к единой файловой системе с миллиардами файлов и завершить ее за несколько часов. [ необходима цитата ]

См. Также [ править ]

  • Alluxio
  • Кластерная файловая система ASM (ACFS)
  • BeeGFS
  • GFS2
  • Gluster
  • Файловая система Google
  • Список файловых систем
  • Lustre (файловая система)
  • MapR FS
  • MooseFS
  • OCFS2
  • Панасас ПанФС
  • QFS
  • IBM Scale-out File Services - сетка NAS
  • Файловая система общего диска
  • Кластерный сервер Veritas
  • ZFS

Ссылки [ править ]

  1. ^ «GPFS (общая параллельная файловая система)» . IBM . Проверено 7 апреля 2020 .
  2. ^ Шмук, Франк; Роджер Хаскин (январь 2002 г.). «GPFS: файловая система с общим диском для больших вычислительных кластеров» (PDF) . Материалы конференции FAST'02 по файловым технологиям и технологиям хранения . Монтерей, Калифорния, США: USENIX. С. 231–244. ISBN  1-880446-03-0. Проверено 18 января 2008 .
  3. ^ "Вычислительные системы Summit" . Национальная лаборатория Окриджа . Проверено 7 апреля 2020 .
  4. ^ "Список Top500 за ноябрь 2019 г." . top500.org . Проверено 7 апреля 2020 .
  5. ^ "Часто задаваемые вопросы о саммите" . Национальная лаборатория Окриджа . Проверено 7 апреля 2020 .
  6. ^ Ван, Тэн; Васько, Кевин; Лю, Чжо; Чен, Хуэй; Ю, Вэйкуань (ноябрь 2014 г.). «BPAR: основанная на пакетах структура параллельного агрегирования для независимого выполнения операций ввода-вывода». 2014 Международный семинар по масштабируемым вычислительным системам с интенсивным использованием данных . IEEE. С. 25–32. DOI : 10.1109 / DISCS.2014.6 . ISBN 978-1-4673-6750-9. S2CID  2402391 .
  7. ^ а б Мэй, Джон М. (2000). Параллельный ввод-вывод для высокопроизводительных вычислений . Морган Кауфманн. п. 92. ISBN 978-1-55860-664-7. Проверено 18 июня 2008 .
  8. ^ Корбетт, Питер Ф .; Feitelson, Dror G .; Prost, J.-P .; Бейлор, SJ (1993). «Параллельный доступ к файлам в файловой системе Весты». Суперкомпьютерные вычисления . Портленд, Орегон, США: ACM / IEEE. С. 472–481. DOI : 10.1145 / 169627.169786 . ISBN 978-0818643408. S2CID  46409100 .
  9. ^ Корбетт, Питер Ф .; Фейтельсон, Дрор Г. (август 1996 г.). «Параллельная файловая система Vesta» (PDF) . Сделки в компьютерных системах . 14 (3): 225–264. DOI : 10.1145 / 233557.233558 . S2CID 11975458 . Проверено 18 июня 2008 .  
  10. ^ Teng Wang; Кевин Васько; Чжо Лю; Хуэй Чен; Вэйкуан Ю (2016). «Улучшите параллельный ввод / вывод с помощью агрегации между пакетами». Международный журнал приложений высокопроизводительных вычислений . 30 (2): 241–256. DOI : 10.1177 / 1094342015618017 . S2CID 12067366 . 
  11. ^ Корбетт, П.Ф .; Д. Г. Фейтельсон; Ж.-П. Прост; GS Almasi; SJ Baylor; А.С. Болмарчич; Ю. Сюй; Дж. Сатран; М. Снир; Р. Колао; BD Herr; Дж. Каваки; Т.Р. Морган; А. Злотек (1995). «Параллельные файловые системы для компьютеров IBM SP» (PDF) . IBM Systems Journal . 34 (2): 222–248. CiteSeerX 10.1.1.381.2988 . DOI : 10.1147 / sj.342.0222 . Проверено 18 июня 2008 .  
  12. ^ Баррис, Марсело; Терри Джонс; Скотт Киннейн; Матис Ландзеттель Сафран аль-Сафран; Джерри Стивенс; Кристофер Стоун; Крис Томас; Ульф Троппенс (сентябрь 1999 г.). Размеры и настройка GPFS (PDF) . IBM Redbooks, Международная организация технической поддержки. см. стр. 1 ( «GPFS является преемником файловой системы PIOFS» ).
  13. ^ a b Снир, Марк (июнь 2001 г.). «Масштабируемые параллельные системы: вклад 1990-2000 гг.» (PDF) . Семинар по высокопроизводительным вычислениям, факультет компьютерной архитектуры, Политехнический университет Каталонии . Проверено 18 июня 2008 .
  14. ^ "IBM GPFS FPO (DCS03038-USEN-00)" (PDF) . Корпорация IBM. 2013 . Проверено 12 августа 2012 . [ постоянная мертвая ссылка ]

Внешние ссылки [ править ]

  • IBM Spectrum Scale в Альмадене
  • Группа пользователей шкалы спектра
  • Документация по продукту IBM Spectrum Scale