Chipkill - это торговая марка IBM, представляющая собой форму усовершенствованной технологии проверки и исправления ошибок (ECC) компьютерной памяти, которая защищает компьютерные системы памяти от любого отказа одного чипа памяти, а также от многобитовых ошибок в любой части одного чипа памяти. [1] [2] Одна простая схема для выполнения этой функции разбрасывает биты слова ECC кода Хэмминга по нескольким микросхемам памяти, так что отказ любой отдельной микросхемы памяти повлияет только на один бит ECC на слово. Это позволяет восстанавливать содержимое памяти, несмотря на полный отказ одного чипа. Типичные реализации используют более сложные коды, такие как код BCH., который может исправить несколько битов с меньшими накладными расходами.
Chipkill часто сочетается с динамическим управлением битами , так что если чип выходит из строя (или превысил порог битовых ошибок), другой, запасной, чип памяти используется для замены вышедшего из строя чипа. Концепция аналогична концепции RAID , который защищает от сбоя диска, за исключением того, что теперь концепция применяется к отдельным микросхемам памяти. Технология была разработана корпорацией IBM в начале и середине 1990-х годов. Важным РАН особенность технологии Chipkill развертывается в основном на твердотельных накопителей , мэйнфреймов и серверов среднего уровня.
Эквивалентная система от Sun Microsystems называется Extended ECC , а эквивалентные системы от HP называются Advanced ECC [3] и Chipspare . Аналогичная система от Intel, называемая памятью Lockstep , обеспечивает функцию коррекции данных двойным устройством (DDDC). [4] Подобные системы Micron , называемые избыточным массивом независимых NAND (RAIN), и SandForce , называемые RAISE level 2 , защищают данные, хранящиеся на твердотельных накопителях, от выхода из строя любого отдельного флеш-чипа NAND. [5] [6]
В статье 2009 года с использованием данных из центров обработки данных Google [7] представлены доказательства, демонстрирующие, что в наблюдаемых системах Google ошибки DRAM повторялись в одном и том же месте и что ежегодно затрагивались 8% модулей DIMM. В частности, «более чем в 85% случаев за исправляемой ошибкой следует по крайней мере еще одна исправляемая ошибка в том же месяце». Модули DIMM с коррекцией ошибок chipkill показали меньшую долю модулей DIMM, сообщающих о неисправимых ошибках, по сравнению с модулями DIMM с кодами исправления ошибок, которые могут исправлять только однобитовые ошибки. В статье 2010 года из Университета Рочестера также показано, что память Chipkill дает значительно меньшее количество ошибок памяти, используя как трассировки памяти реального мира, так и моделирование. [8]
Смотрите также
Рекомендации
- ^ Тимоти Дж. Делл (1997-11-19). «Белая книга о преимуществах Chipkill-Correct ECC для основной памяти ПК-сервера» (PDF) . IBM . Архивировано из оригинального (PDF) 23 сентября 2015 года . Проверено 2 февраля 2015 . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Повышение надежности IBM Netfinity Server: IBM Chipkill Memory» (PDF) . IBM . 2000. Архивировано из оригинального (PDF) 23 сентября 2015 года . Проверено 2 февраля 2015 . CS1 maint: обескураженный параметр ( ссылка )
- ^ «Рекомендации по передовой практике для серверов ProLiant с процессорами Intel Xeon серии 5500, Техническая документация, 1-е издание» (PDF) . HP . Май 2009. с. 8 . Проверено 9 сентября 2014 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Томас Уилхальм (11.07.2014). «Независимый канал или режим Lockstep - используйте память быстрее или безопаснее» . Intel . Проверено 2 февраля 2015 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Ли Хатчинсон. «Революция твердотельных накопителей: подробные сведения о том, как действительно работают твердотельные накопители» . 2012 г.
- ^ Эрик Слэк. «Как сделать надежные твердотельные накопители - надежную флеш-память NAND» .
- ^ Шредер, Бьянка; Пинейро, Эдуардо; Вебер, Вольф-Дитрих (2009). «Ошибки DRAM в дикой природе: крупномасштабное полевое исследование» (PDF) . Труды одиннадцатой международной совместной конференции по измерению и моделированию компьютерных систем . СИГМЕТРИКА '09. ACM: 193–204. DOI : 10.1145 / 1555349.1555372 . Проверено 7 сентября 2011 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ Ли, Синь; Хуанг, Майкл; Шен, Кай; Линкун, Чу (2010). « » Реалистичная оценка аппаратных ошибок памяти и программное обеспечение система Восприимчивость». Usenix Ежегодной техническая конференция 2010" (PDF) .
Внешние ссылки
- Набор микросхем Intel E7500 MCH Реализация и проверка исправления данных на одном устройстве Intelx4 (x4 SDDC) , Примечания по применению Intel AP-726, август 2002 г.
- Исследование DRAM переворачивает предположения об ошибках с ног на голову , Ars Technica , 7 октября 2009 г.
- Включение функций надежности, доступности и удобства обслуживания памяти на серверах Dell PowerEdge , 2005 г.
- Архитектура правильной памяти Chipkill , август 2000 г., Дэвид Локлир
- Математика Chipkill ECC , октябрь 2015 г., Боб Дэй