Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и ремонтопригодность ( RAM ), - это термин компьютерного аппаратного обеспечения, включающий проектирование надежности , высокой доступности и удобства обслуживания . Эта фраза изначально использовалась International Business Machines ( IBM ) как термин для описания надежности своих мэйнфреймов . [1] [2]

Компьютеры, разработанные с более высокими уровнями RAS, обладают множеством функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев [3]. Эта целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем .

Определения [ править ]

В то время как RAS возникла как термин, ориентированный на оборудование, системное мышление распространило концепцию надежности-доступности-удобства обслуживания на системы в целом, включая программное обеспечение . [4]

  • Надежность можно определить как вероятность того, что система будет производить правильные выходные данные до некоторого заданного времени t . [5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных ( мягких ) или прерывистых ошибок, или, в случае неисправимых ошибок, выделяя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые может аварийное переключениек избыточному заменяемому оборудованию и т. д.), или остановив затронутую программу или всю систему и сообщив о повреждении. Надежность можно охарактеризовать как среднее время наработки на отказ (MTBF), где надежность = exp (-t / MTBF). [5]
  • Доступность означает вероятность того, что система находится в рабочем состоянии в данный момент времени, т. Е. Количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с пониженной производительностью. Напротив, менее функциональная система может дать сбой и полностью перестать работать. Доступность обычно выражается в процентах от ожидаемого времени, в течение которого система будет доступна, например, 99,999 процентов (« пять девяток »).
  • Удобство обслуживания или ремонтопригодность - это простота и скорость, с которой систему можно ремонтировать или обслуживать; если время на ремонт отказавшей системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает системный сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.

Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы работать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных. [6]

Типы отказов [ править ]

Физические неисправности могут быть временными или постоянными.

  • Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, такого как электромиграция металла или пробой диэлектрика.
  • К временным сбоям относятся кратковременные и прерывистые сбои.
    • Временные (так называемые « мягкие» ) сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
    • Периодические сбои возникают из-за слабого компонента системы, например, из-за ухудшения параметров цепи, что приводит к ошибкам, которые могут повторяться. [5]

Ответы на ошибки [ править ]

Переходные и прерывистые сбои обычно можно обрабатывать путем обнаружения и исправления, например, с помощью кодов ЕСС или воспроизведения команд (см. Ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например резервированием процессора, или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно исправленном периодическом сбое также можно сообщить в операционную систему (ОС), чтобы предоставить информацию для прогнозирующего анализа сбоев .

Характеристики оборудования [ править ]

Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:

  • Процессор :
  • Память :
    • Защита компонентов памяти ( кеш-память и основная память ) с помощью четности или ECC (включая коррекцию отдельного устройства ); отключение плохой строки кеша; очистка памяти ; сохранение памяти, зеркалирование памяти; [10] плохая офлайн-страница; резервное управление долотами ; избыточный массив независимой памяти (RAIM).
  • Ввод / вывод :
    • Контрольные суммы циклического контроля избыточности для передачи / повторных попыток и хранения данных, например, PCI Express (PCIe) Advanced Error Reporting (AER), [11] избыточные пути ввода / вывода .
  • Хранение :
    • Конфигурации RAID для жесткого диска и твердотельного накопителя.
    • Журналирование файловых систем для восстановления файлов после сбоев.
    • Контрольные суммы для данных и метаданных, а также очистка фона .
    • Технология SMART для жестких дисков и твердотельных накопителей.
  • Питание / охлаждение:
    • Дублирование компонентов, чтобы избежать единой точки отказа , например, источников питания.
    • Перепроектирование системы для заданных рабочих диапазонов тактовой частоты , температуры, напряжения, вибрации.
    • Датчики температуры для регулирования рабочей частоты, когда температура выходит за пределы спецификации.
    • Сетевой фильтр , источник бесперебойного питания , вспомогательное питание .
  • Система:
    • Горячая замена компонентов: ЦП , ОЗУ , жесткие диски и твердотельные накопители .
    • Прогнозирующий анализ отказов для прогнозирования того, какие периодически исправляемые ошибки приведут в конечном итоге к трудно исправляемым ошибкам.
    • Разделение компонентов компьютера на разделы, позволяющее одной большой системе действовать как несколько меньших систем.
    • Виртуальные машины для снижения серьезности ошибок программного обеспечения операционной системы .
    • Избыточные домены ввода-вывода [12] или разделы ввода-вывода [13] для обеспечения виртуального ввода-вывода для гостевых виртуальных машин.
    • Возможность кластеризации компьютеров с возможностью аварийного переключения для полного резервирования оборудования и программного обеспечения.
    • Динамическое обновление программного обеспечения, чтобы избежать необходимости перезагружать систему для обновления программного обеспечения ядра , например Ksplice под Linux.
    • Независимый процессор управления для удобства обслуживания: удаленный мониторинг, оповещение и контроль.

Отказоустойчивые конструкции расширили идею, сделав RAS определяющей особенностью их компьютеров для таких приложений, как биржи фондового рынка или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. « Тандемные компьютеры» и « Stratus Technologies» ), которые, как правило, имеют дублирующиеся компоненты, работающие с синхронизацией для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности , использующие методы распределенных вычислений , такие как компьютерные кластеры , часто используются как более дешевые альтернативы. [ необходима цитата]

См. Также [ править ]

  • Архитектура машинной проверки
  • Резервирование (инжиниринг)
  • Комплексная логистическая поддержка
  • RAMS

Ссылки [ править ]

  1. ^ Siewiorek, Дэниел П .; Сварц, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка . п. 508 . CS1 maint: обескураженный параметр ( ссылка ). «Аббревиатура RAS (надежность, доступность и удобство обслуживания) получила широкое распространение в IBM в качестве замены подмножества понятия управления восстановлением».
  2. ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, Выпуски 13-17». Цитировать журнал требует |journal=( помощь )CS1 maint: multiple names: authors list (link)- «Надежность [...], которую испытывают другие пользователи System / 370, является результатом стратегии, основанной на RAS (надежность-доступность-удобство обслуживания)»
  3. ^ Зиверт, Сэм (март 2005). «Большие уроки железа. Часть 2: Надежность и доступность: в чем разница?» (PDF) .
  4. ^ Например: Ларос III, Джеймс Х. (2012). Энергоэффективные высокопроизводительные вычисления: измерение и настройка . SpringerBriefs в области компьютерных наук. и др . Springer Science & Business Media. п. 8. ISBN 9781447144922. Проверено 8 июля 2014 . Исторически системы обеспечения надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками для систем класса мэйнфреймов. [...] Система RAS должна быть систематическим объединением программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом. CS1 maint: discouraged parameter (link)
  5. ^ а б в Э.Дж. Мак-Класки и С. Митра (2004). «Отказоустойчивость» в Справочнике по информатике 2 изд. изд. А.Б. Такер. CRC Press .
  6. ^ Спенсер, Ричард Х .; Флойд, Раймонд Э. (2011). Перспективы инженерии . Блумингтон, Индиана: AuthorHouse. п. 33. ISBN 9781463410919. Проверено 5 мая 2014 . [...] системный сервер может иметь отличную доступность (работать вечно), но по-прежнему иметь частое повреждение данных (не очень надежно). CS1 maint: discouraged parameter (link)
  7. ^ Даниэль Липец и Эрик Шварц (2011). «Самопроверка в текущих модулях с плавающей запятой. Труды 20-го симпозиума IEEE 2011 года по компьютерной арифметике» (PDF) . Архивировано из оригинального (PDF) 24 января 2012 года.
  8. ^ Л. Спейнхауэр и Т.А. Грегг (сентябрь 1999 г.). «Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5» (PDF) . CiteSeerX 10.1.1.85.5994 .  
  9. ^ «Технология воспроизведения инструкций Intel обнаруживает и исправляет ошибки» . Проверено 7 декабря 2012 . CS1 maint: discouraged parameter (link)
  10. ^ HP. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (страница 8)» (PDF) . Архивировано из оригинального (PDF) 24 июля 2011 года. CS1 maint: discouraged parameter (link)
  11. ^ Intel Corp. (2003). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания» .
  12. ^ «Рекомендации по обеспечению надежности данных с Oracle VM Server для SPARC» (PDF) . Проверено 2 июля 2013 . CS1 maint: discouraged parameter (link)
  13. ^ «Соображения по поводу резервирования IBM Power» . Проверено 2 июля 2013 . CS1 maint: discouraged parameter (link)

Внешние ссылки [ править ]

  • Функции обеспечения надежности, доступности и удобства обслуживания (RAS) Itanium Обзор общих функций RAS и конкретных характеристик процессора Itanium .
  • POWER7 System RAS Ключевые аспекты надежности, доступности и удобства обслуживания энергосистем. Дэниел Хендерсон, Джим Митчелл и Джордж Аренс. 10 февраля 2012 г. Обзор функций RAS в процессорах POWER .
  • Корпорация Intel. Надежность, доступность и удобство обслуживания для Always-on Enterprise (приложение B) и семейство процессоров Intel Xeon E7: поддержка серверов RAS нового поколения. Белая бумага. Обзор функций RAS в процессорах Xeon .
  • zEnterprise 196 Обзор системы. IBM Corp. (Глава 10) Обзор функций RAS процессора IBM z196 и сервера zEnterprise 196 .
  • Максимальное повышение надежности и доступности приложений с помощью функций RAS сервера SPARC M5-32 сервера Oracle SPARC M5-32