Надежность, доступность и удобство обслуживания ( RAS ), также известная как надежность, доступность и ремонтопригодность ( RAM ), - это термин компьютерного аппаратного обеспечения, включающий проектирование надежности , высокой доступности и удобства обслуживания . Эта фраза изначально использовалась International Business Machines ( IBM ) как термин для описания надежности своих мэйнфреймов . [1] [2]
Компьютеры, разработанные с более высокими уровнями RAS, обладают множеством функций, которые защищают целостность данных и помогают им оставаться доступными в течение длительных периодов времени без сбоев [3]. Эта целостность данных и время безотказной работы являются особым преимуществом для мэйнфреймов и отказоустойчивых систем .
Определения
В то время как RAS возникла как термин, ориентированный на оборудование, системное мышление распространило понятие надежности-доступности-удобства обслуживания на системы в целом, включая программное обеспечение . [4]
- Надежность можно определить как вероятность того, что система будет производить правильные выходные данные до некоторого заданного времени t . [5] Надежность повышается за счет функций, которые помогают избегать, обнаруживать и устранять неисправности оборудования. Надежная система не продолжает молча и не дает результатов, которые включают неисправленные поврежденные данные. Вместо этого он обнаруживает и, если возможно, исправляет повреждение, например: повторяя операцию для временных ( мягких ) или прерывистых ошибок, или, в случае неисправимых ошибок, выделяя неисправность и сообщая о ней механизмам восстановления более высокого уровня (которые может переключиться на резервное заменяющее оборудование и т. д.), либо путем остановки затронутой программы или всей системы и сообщения о повреждении. Надежность можно охарактеризовать как среднее время наработки на отказ (MTBF), где надежность = exp (-t / MTBF). [5]
- Доступность означает вероятность того, что система работает в данный момент времени, т. Е. Количество времени, в течение которого устройство фактически работает, как процент от общего времени, в течение которого оно должно работать. Системы высокой доступности могут сообщать о доступности в минутах или часах простоя в год. Функции доступности позволяют системе оставаться в рабочем состоянии даже при возникновении неисправностей. Система с высокой доступностью отключит неисправную часть и продолжит работу с пониженной производительностью. Напротив, менее функциональная система может дать сбой и полностью перестать работать. Доступность обычно выражается в процентах от ожидаемого срока доступности системы, например 99,999 процентов (« пять девяток »).
- Удобство обслуживания или ремонтопригодность - это простота и скорость, с которой систему можно ремонтировать или обслуживать; если время на ремонт отказавшей системы увеличивается, доступность снижается. Удобство обслуживания включает в себя различные методы простой диагностики системы при возникновении проблем. Раннее обнаружение неисправностей может уменьшить или избежать простоя системы. Например, некоторые корпоративные системы могут автоматически вызывать сервисный центр (без вмешательства человека), когда в системе возникает сбой. Традиционно основное внимание уделялось правильному ремонту с минимальным нарушением нормальной работы.
Обратите внимание на различие между надежностью и доступностью: надежность измеряет способность системы работать правильно, включая предотвращение повреждения данных, тогда как доступность измеряет, как часто система доступна для использования, даже если она может работать некорректно. Например, сервер может работать вечно и поэтому иметь идеальную доступность, но может быть ненадежным из-за частого повреждения данных. [6]
Типы отказов
Физические неисправности могут быть временными или постоянными.
- Постоянные неисправности приводят к продолжающейся ошибке и обычно возникают из-за некоторого физического отказа, такого как электромиграция металла или пробой диэлектрика.
- К временным сбоям относятся кратковременные и прерывистые сбои.
- Временные (так называемые « мягкие» ) сбои приводят к независимым разовым ошибкам и не связаны с постоянными сбоями оборудования: примеры включают альфа-частицы, переворачивающие бит памяти, электромагнитный шум или колебания источника питания.
- Периодические сбои возникают из-за слабого компонента системы, например, из-за ухудшения параметров цепи, что приводит к ошибкам, которые могут повторяться. [5]
Отклики при сбоях
Переходные и прерывистые сбои обычно можно обрабатывать путем обнаружения и исправления, например, с помощью кодов ЕСС или воспроизведения команд (см. Ниже). Постоянные сбои приведут к неисправимым ошибкам, которые могут быть обработаны заменой дублирующим оборудованием, например, резервированием процессора, или передачей неисправимой ошибки механизмам восстановления высокого уровня. Об успешно исправленном периодическом сбое также можно сообщить в операционную систему (ОС), чтобы предоставить информацию для прогнозирующего анализа сбоев .
Аппаратные особенности
Примеры аппаратных функций для улучшения RAS включают следующее, перечисленное по подсистемам:
- Процессор :
- Обнаружение ошибок инструкций процессора (например, проверка остатков результатов [7] ) с повторением инструкций, например, альтернативное восстановление процессора в мэйнфреймах IBM [8] или «технология воспроизведения инструкций» в системах Itanium . [9]
- Процессоры, работающие в режиме блокировки, для выполнения основной проверки или схем голосования.
- Архитектура машинной проверки и интерфейс ошибок платформы ACPI для сообщения об ошибках в ОС.
- Память :
- Защита компонентов памяти ( кеш-память и основная память ) с помощью четности или ECC (включая коррекцию отдельного устройства ); отключение плохой строки кеша; очистка памяти ; сохранение памяти, зеркалирование памяти; [10] плохая офлайн-страница; резервное управление долотами ; избыточный массив независимой памяти (RAIM).
- Ввод / вывод :
- Контрольные суммы циклического контроля избыточности для передачи / повторных попыток и хранения данных, например, PCI Express (PCIe) Advanced Error Reporting (AER), [11] избыточные пути ввода / вывода .
- Хранение :
- Конфигурации RAID для жесткого диска и твердотельного накопителя.
- Журналирование файловых систем для восстановления файлов после сбоев.
- Контрольные суммы для данных и метаданных, а также очистка фона .
- Технология SMART для жестких дисков и твердотельных накопителей.
- Питание / охлаждение:
- Дублирование компонентов, чтобы избежать единой точки отказа , например, источников питания.
- Перепроектирование системы для заданных рабочих диапазонов тактовой частоты , температуры, напряжения, вибрации.
- Датчики температуры для регулирования рабочей частоты, когда температура выходит за пределы спецификации.
- Сетевой фильтр , источник бесперебойного питания , вспомогательное питание .
- Система:
- Горячая замена компонентов: ЦП , ОЗУ , жесткие диски и твердотельные накопители .
- Прогнозирующий анализ отказов для прогнозирования того, какие периодически исправляемые ошибки приведут в конечном итоге к трудно исправляемым ошибкам.
- Разделение компонентов компьютера на разделы, позволяющее одной большой системе действовать как несколько меньших систем.
- Виртуальные машины для снижения серьезности ошибок программного обеспечения операционной системы .
- Избыточные домены ввода-вывода [12] или разделы ввода-вывода [13] для обеспечения виртуального ввода-вывода для гостевых виртуальных машин.
- Возможность кластеризации компьютеров с возможностью аварийного переключения для полного резервирования оборудования и программного обеспечения.
- Динамическое обновление программного обеспечения, чтобы избежать необходимости перезагружать систему для обновления программного обеспечения ядра , например Ksplice под Linux.
- Независимый процессор управления для удобства обслуживания: удаленный мониторинг, оповещение и контроль.
Отказоустойчивые конструкции расширили эту идею, сделав RAS определяющей особенностью их компьютеров для таких приложений, как биржи фондового рынка или управление воздушным движением , где сбои системы были бы катастрофическими. Отказоустойчивые компьютеры (например, см. Тандемные компьютеры и Stratus Technologies ), которые, как правило, имеют дублирующиеся компоненты, работающие с синхронизацией для обеспечения надежности, стали менее популярными из-за их высокой стоимости. Системы высокой доступности , использующие методы распределенных вычислений , такие как компьютерные кластеры , часто используются как более дешевые альтернативы. [ необходима цитата ]
Смотрите также
- Архитектура машинной проверки
- Резервирование (инжиниринг)
- Комплексная логистическая поддержка
- RAMS
Рекомендации
- ^ Siewiorek, Дэниел П .; Сварц, Роберт С. (1998). Надежные компьютерные системы: проектирование и оценка . п. 508 .. «Аббревиатура RAS (надежность, доступность и удобство обслуживания) получила широкое распространение в IBM в качестве замены подмножества понятия управления восстановлением».
- ^ Отдел обработки данных, International Business Machines Corp., 1970 (1970). «Обработчик данных, Выпуски 13-17». Цитировать журнал требует
|journal=
( помощь )CS1 maint: несколько имен: список авторов ( ссылка )- «Надежность [...], которую испытывают другие пользователи System / 370, является результатом стратегии, основанной на RAS (надежность-доступность-удобство обслуживания)» - ^ Сиверт, Сэм (март 2005 г.). «Большие уроки железа. Часть 2: Надежность и доступность: в чем разница?» (PDF) .
- ^ Например: Ларос III, Джеймс Х. (2012). Энергоэффективные высокопроизводительные вычисления: измерение и настройка . SpringerBriefs в области компьютерных наук. и др . Springer Science & Business Media. п. 8. ISBN 9781447144922. Проверено 8 июля 2014 .
Исторически системы обеспечения надежности, доступности и удобства обслуживания (RAS) обычно предоставлялись поставщиками для систем класса мэйнфреймов. [...] Система RAS должна быть систематическим объединением программного и аппаратного обеспечения с целью управления и мониторинга всех аппаратных и программных компонентов системы в соответствии с их индивидуальным потенциалом.
- ^ а б в EJ McClusky & S. Mitra (2004). «Отказоустойчивость» в Справочнике по информатике 2 изд. изд. А.Б. Такер. CRC Press .
- ^ Спенсер, Ричард Х .; Флойд, Раймонд Э. (2011). Перспективы инженерии . Блумингтон, Индиана: AuthorHouse. п. 33. ISBN 9781463410919. Проверено 5 мая 2014 .
[...] системный сервер может иметь отличную доступность (работать вечно), но по-прежнему иметь частое повреждение данных (не очень надежно).
- ^ Даниэль Липец и Эрик Шварц (2011). «Самопроверка в текущих модулях с плавающей запятой. Труды 20-го симпозиума IEEE 2011 года по компьютерной арифметике» (PDF) . Архивировано из оригинального (PDF) 24 января 2012 года.
- ^ Л. Спейнхауэр и Т.А. Грегг (сентябрь 1999 г.). «Отказоустойчивость параллельного корпоративного сервера IBM S / 390 G5: историческая перспектива. Журнал исследований и разработок IBM. Том 43, выпуск 5» (PDF) . CiteSeerX 10.1.1.85.5994 .
- ^ «Технология Intel Instruction Replay обнаруживает и исправляет ошибки» . Проверено 7 декабря 2012 .
- ^ HP. «Эволюция технологий памяти: обзор технологий системной памяти. Краткий обзор технологий, 9-е издание (страница 8)» (PDF) . Архивировано из оригинального (PDF) 24 июля 2011 года.
- ^ Корпорация Intel (2003 г.). «PCI Express обеспечивает корпоративную надежность, доступность и удобство обслуживания» .
- ^ «Лучшие практики обеспечения надежности данных с Oracle VM Server для SPARC» (PDF) . Проверено 2 июля 2013 .
- ^ «Рекомендации по резервированию IBM Power» . Проверено 2 июля 2013 .
Внешние ссылки
- Функции обеспечения надежности, доступности и удобства обслуживания (RAS) Itanium Обзор общих функций RAS и конкретных характеристик процессора Itanium .
- POWER7 System RAS Ключевые аспекты надежности, доступности и удобства обслуживания энергосистем. Дэниел Хендерсон, Джим Митчелл и Джордж Аренс. 10 февраля 2012 г. Обзор функций RAS в процессорах POWER .
- Корпорация Intel. Надежность, доступность и удобство обслуживания для Always-on Enterprise (приложение B) и семейство процессоров Intel Xeon E7: поддержка серверов RAS нового поколения. Белая бумага. Обзор функций RAS в процессорах Xeon .
- zEnterprise 196 Обзор системы. IBM Corp. (Глава 10) Обзор функций RAS процессора IBM z196 и сервера zEnterprise 196 .
- Максимальное повышение надежности и доступности приложений с помощью функций RAS сервера SPARC M5-32 сервера Oracle SPARC M5-32