Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Системы Lockstep - это отказоустойчивые компьютерные системы, которые параллельно выполняют один и тот же набор операций . [1] избыточность (дублирование) позволяет обнаруживать ошибки и коррекцию ошибок: выход из Lockstep операций можно сравнить , чтобы определить, имело место неисправности , если есть, по крайней мере , две систем ( двойная модульная избыточность ), и ошибка может быть автоматически исправлено большинством голосов при наличии как минимум трех систем ( тройное модульное резервирование ). Термин « прямая походка » происходит от армейского употребления, где он относится к синхронной ходьбе, при которой участники марша ходят настолько близко друг к другу, насколько это возможно с физической точки зрения.

Чтобы работать синхронно, каждая система настроена на переход от одного четко определенного состояния к следующему четко определенному состоянию. Когда новый набор входов достигает системы, она обрабатывает их, генерирует новые выходы и обновляет свое состояние. Этот набор изменений (новые входы, новые выходы, новое состояние) считается определяющим этот шаг и должен рассматриваться как атомарная транзакция; другими словами, либо все это происходит, либо ничего не происходит, но не что-то среднее. Иногда между системами устанавливается временной сдвиг (задержка), что увеличивает вероятность обнаружения ошибок, вызванных внешними воздействиями (например, скачками напряжения , ионизирующим излучением или обратным проектированием на месте ).

Lockstep memory [ править ]

Некоторые производители, в том числе Intel, используют термин блокирующая память для описания многоканальной схемы памяти, в которой строки кэша распределяются между двумя каналами памяти, поэтому одна половина строки кэша хранится в DIMM на первом канале, а вторая половина идет на DIMM на втором канале. Комбинируя возможности исправления одиночных ошибок и обнаружения двойных ошибок (SECDED) двух модулей DIMM с поддержкой ECC в разводке, их характер коррекции данных с одним устройством (SDDC) можно расширить до коррекции данных с двумя устройствами (DDDC), обеспечивая защиту против выхода из строя любой отдельной микросхемы памяти. [2][3] [4] [5]

Недостатками схемы замкнутой памяти Intel являются уменьшение эффективно используемого объема ОЗУ (в случае трехканальной схемы памяти максимальный объем памяти уменьшается до одной трети от физически доступного максимума) и снижение производительности подсистемы памяти. [2] [4]

Двойное модульное резервирование [ править ]

Если вычислительные системы дублированы, но обе активно обрабатывают каждый шаг, трудно провести арбитраж между ними, если их результаты различаются в конце шага. По этой причине общепринято запускать системы DMR в конфигурациях «ведущий / ведомый» с ведомым устройством в качестве «горячего резерва» для ведущего, а не синхронно. Поскольку нет никакого преимущества в том, что ведомое устройство активно обрабатывает каждый шаг, общий метод работы заключается в том, что ведущее устройство копирует свое состояние в конце обработки каждого этапа на ведомое устройство. Если в какой-то момент ведущий выйдет из строя, ведомое устройство готово продолжить с предыдущего заведомо исправного шага.

Хотя шаг блокировки или подход DMR (в сочетании с некоторыми средствами обнаружения ошибок в ведущем устройстве) могут обеспечить резервирование от аппаратного сбоя ведущего устройства, они не защищают от сбоя программного обеспечения. Если ведущий выходит из строя из-за ошибки программного обеспечения, весьма вероятно, что ведомое устройство - при попытке повторить выполнение шага, который завершился неудачей - просто повторит ту же ошибку и выйдет из строя таким же образом, пример отказа общего режима .

Тройное модульное резервирование [ править ]

Когда вычислительные системы имеют тройное дублирование, появляется возможность рассматривать их как системы «голосования». Если выход одного блока не согласуется с выходом двух других, он определяется как неисправный. Соответствующий вывод двух других считается правильным.

См. Также [ править ]

  • NonStop (серверные компьютеры)
  • Stratus VOS
  • VAXft

Ссылки [ править ]

  1. ^ Стефан Poledna (1996). Отказоустойчивые системы реального времени: проблема детерминизма реплик . books.google.com . п. 80. ISBN 9780585295800. Проверено 8 сентября 2014 .
  2. ^ a b Шри Шьямалакумари (18 февраля 2014 г.). «Технический обзор семейства процессоров Intel Xeon E7 V2, Раздел 3.1: Масштабируемый буфер памяти Intel C104 / 102» . Intel . Проверено 9 сентября 2014 .
  3. ^ Томас Willhalm (2014-07-11). «Независимый канал или режим Lockstep - используйте память быстрее или безопаснее» . Intel . Проверено 9 сентября 2014 .
  4. ^ a b «Рекомендации для серверов ProLiant с процессорами Intel Xeon серии 5500, Техническая документация, 1-е издание» (PDF) . HP . Май 2009. С. 8–9 . Проверено 9 сентября 2014 .
  5. ^ "Intel C102 / C104 Scalable Memory Buffer Datasheet, раздел 1.3.1.2.2: 1: 1 Sub-channel Lockstep Mode" (PDF) . Intel . Февраль 2014. с. 9 . Проверено 25 января 2015 .

Внешние ссылки [ править ]

  • Включение функций надежности, доступности и удобства обслуживания памяти на серверах Dell PowerEdge , 2005 г.
  • Архитектура правильной памяти Chipkill , август 2000 г., Дэвид Локлир