Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
NEC VR10000.

R10000 , под кодовым названием "T5", является RISC реализация Микропроцессор MIPS IV архитектуры набора команд (ISA) , разработанной MIPS Technologies, Inc. (MTI), то подразделение Silicon Graphics, Inc. (SGI). Главные дизайнеры - Крис Роуэн и Кеннет С. Йегер. Микроархитектура R10000 известна как ANDES, сокращение от «Архитектура с непоследовательным динамическим планированием выполнения». R10000 в значительной степени заменяет R8000 в high-end и R4400 в других местах. MTI была полупроводниковой компанией без фабрик ; R10000 был изготовлен NEC иToshiba . Предыдущие производители микропроцессоров MIPS, такие как Integrated Device Technology (IDT) и три других, не производили R10000, поскольку это было дороже, чем R4000 и R4400.

История [ править ]

R10000 был представлен в январе 1996 года с тактовыми частотами 175 МГц и 195 МГц. Версия на 150 МГц была представлена ​​в линейке продуктов O2 в 1997 году, но вскоре после этого была прекращена из-за того, что покупатели предпочли версию на 175 МГц. R10000 не был доступен в больших количествах до конца года из-за производственных проблем на литейных заводах MIPS. Версия 195 МГц была в дефиците в течение 1996 года и в результате была оценена в 3000 долларов США. [1]

25 сентября 1996 г. SGI объявила, что блоки R10000, изготовленные NEC в период с марта по конец июля того же года, были неисправными, потребляли слишком большой ток и приводили к отключению систем во время работы. SGI отозвала 10 000 R10000, которые были поставлены в системах в результате, что повлияло на прибыль компании.

В 1997 году версия R10000, изготовленная по технологии 0,25 мкм, позволила микропроцессору достичь 250 МГц.

Пользователи [ править ]

Пользователи R10000 включают:

Описание [ править ]

Штамп NEC VR10000.

R10000 - это суперскалярная система с четырьмя путями, которая реализует переименование регистров и выполняет инструкции в неупорядоченном порядке . Его конструкция отличается от предыдущих микропроцессоров MTI, таких как R4000, который представляет собой гораздо более простую скалярную упорядоченную конструкцию, которая в значительной степени зависит от высокой тактовой частоты для обеспечения производительности.

R10000 извлекает четыре инструкции каждый цикл из своего кэша инструкций . Эти инструкции декодируются и затем помещаются в целочисленные, с плавающей запятой или очереди инструкций загрузки / сохранения в зависимости от типа инструкции. Блоку декодирования помогают предварительно декодированные инструкции из кэша инструкций, которые добавляют пять битов к каждой инструкции, чтобы позволить блоку быстро определить, в каком исполнительном блоке выполняется инструкция, и изменить формат инструкции для оптимизации декодирования. процесс.

Каждая из очередей инструкций может принимать до четырех инструкций от декодера, избегая каких-либо узких мест. Очереди инструкций выдают свои инструкции своим исполнительным блокам динамически в зависимости от доступности операндов и ресурсов. Каждая из очередей, за исключением очереди загрузки / сохранения, может выдавать до двух инструкций каждый цикл своим исполнительным блокам. Очередь загрузки / сохранения может выдавать только одну инструкцию. Таким образом, R10000 может выдавать до пяти инструкций за каждый цикл.

Целочисленная единица [ править ]

Целочисленный блок состоит из целочисленного регистрового файла и трех конвейеров , двух целочисленных и одного загрузочного хранилища. Файл целочисленных регистров имеет ширину 64 бита и содержит 64 записи, из которых 32 являются регистрами архитектуры, а 32 - регистрами переименования, реализующими переименование регистров. Регистровый файл имеет семь портов чтения и три порта записи. Оба целочисленных конвейера имеют сумматор и логический блок. Однако только первый конвейер имеет устройство сдвига и оборудование для подтверждения предсказания условных переходов. Второй конвейер используется для доступа к множителю и делителю. Умножения являются конвейерными и имеют задержку в шесть циклов для 32-битных целых чисел и десять для 64-битных целых чисел. Деление не конвейерное. В делителе используетсябезвосстанавливающий алгоритм , производящий один бит за цикл. Задержки для 32-битных и 64-битных делений составляют 35 и 67 циклов соответственно.

Единицы с плавающей запятой [ править ]

Блок с плавающей запятой (FPU) состоит из четырех функциональных блоков, сумматора, умножителя, блока деления и блока квадратного корня. Сумматор и умножитель конвейерные, а единицы деления и квадратного корня - нет. Сложение и умножение имеют задержку в три цикла, а сумматор и умножитель могут принимать новую инструкцию каждый цикл. Блок деления имеет задержку в 12 или 19 циклов, в зависимости от того, является ли деление одинарной или двойной точностью, соответственно.

Модуль квадратного корня выполняет инструкции извлечения квадратного корня и обратного квадратного корня . Инструкции извлечения квадратного корня имеют задержку в 18 или 33 цикла для одинарной или двойной точности соответственно. Новая команда извлечения квадратного корня может быть выдана блоку деления каждые 20 или 35 циклов для одинарной и двойной точности соответственно. Обратные квадратные корни имеют более длительную задержку, от 30 до 52 циклов для одинарной точности (32 бита) и двойной точности (64 бита) соответственно.

Файл регистров с плавающей запятой содержит шестьдесят четыре 64-битных регистра, из которых тридцать два являются архитектурными, а остальные - регистрами переименования. Сумматор имеет свои собственные выделенные порты чтения и записи, тогда как умножитель делит их с делителем и единицей квадратного корня.

В единицах деления и квадратного корня используется алгоритм SRT . MIPS IV ISA имеет инструкцию умножения-сложения. Эта инструкция реализована R10000 с обходом - результат умножения может обойти регистровый файл и быть доставлен в конвейер сложения в качестве операнда, таким образом, это не объединенное умножение-сложение и имеет задержку в четыре цикла.

Кеши [ править ]

R10000 имеет два сравнительно больших кэша на кристалле, кэш инструкций 32 КБ и кэш данных 32 КБ. Кэш инструкций является двусторонним ассоциативным по множеству и имеет размер строки 128 байт. Инструкции частично декодируются путем добавления четырех битов к каждой инструкции (которая имеет длину 32 бита) перед тем, как они будут помещены в кэш.

Кэш данных 32 КБ имеет двойной порт с двусторонним чередованием. Он состоит из двух банков по 16 КБ , и каждый банк является двусторонним ассоциативным. Кэш имеет 64-байтовые строки, использует протокол обратной записи и виртуально индексируется и физически помечен тегами, чтобы можно было индексировать кеш в одном тактовом цикле и поддерживать согласованность с вторичным кешем.

Внешний вторичный унифицированный кэш поддерживает емкость от 512 КБ до 16 МБ. Он реализован с использованием стандартных синхронных статических запоминающих устройств с произвольным доступом (SSRAM). Доступ к кешу осуществляется через его собственную 128-битную шину, которая защищена 9-битным кодом коррекции ошибок (ECC). Кэш и шина работают с той же тактовой частотой, что и R10000, максимальная частота которого составляла 200 МГц. На частоте 200 МГц шина дала пиковую пропускную способность 3,2 ГБ / с. Кэш является двухсторонним ассоциативным, но, чтобы избежать большого количества выводов, R10000 предсказывает, в каком направлении осуществляется доступ.

Обращение [ править ]

MIPS IV - это 64-битная архитектура, но для снижения стоимости R10000 не реализует полный физический или виртуальный адрес . Вместо этого он имеет 40-битный физический адрес и 44-битный виртуальный адрес, таким образом, он способен адресовать 1 ТБ физической памяти и 16 ТБ виртуальной памяти .

Системная шина Avalanche [ править ]

R10000 использует шину Avalanche , 64-битную шину , работающую на частотах до 100 МГц. Avalanche - это мультиплексированная шина адреса и данных, поэтому на 100 МГц он дает максимальную теоретическую пропускную способность 800 МБ / с, но его пиковая пропускная способность составляет 640 МБ / с, поскольку для передачи адресов требуется несколько циклов.

Контроллер системного интерфейса поддерживает бесклеевую симметричную многопроцессорную обработку (SMP) до четырех микропроцессоров. Системы, использующие R10000 с внешней логикой, могут масштабироваться до сотен процессоров. Примером такой системы является Origin 2000 .

Изготовление [ править ]

R10000 состоит примерно из 6,8 миллиона транзисторов, из которых примерно 4,4 миллиона находятся в первичных кэшах. [2] Размер матрицы составляет 16,640 на 17,934 мм, площадь матрицы составляет 298,422 мм 2 . Он изготовлен по технологии 0,35 мкм и упакован в керамическую решетку с 599 контактными площадками (LGA). До того, как R10000 был представлен, в отчете о микропроцессоре , посвященном Форуму микропроцессоров 1994 года, сообщалось, что он был упакован в керамическую решетку с 527-контактными выводами (CPGA); и что поставщики также исследовали возможность использования 339-контактного многокристального модуля (MCM), содержащего кристалл микропроцессора и 1 МБ кэш-памяти. [3]

Производные [ править ]

R10000 был расширен несколькими последовательными производными. Все производные после R12000 имеют как можно более низкую тактовую частоту, чтобы поддерживать рассеиваемую мощность в диапазоне от 15 до 20 Вт, поэтому они могут быть плотно упакованы в системы высокопроизводительных вычислений (HPC) SGI .

R12000 [ править ]

Штамп NEC VR12000.

R12000 является производным от R10000, запущенного MIPS и завершенного SGI. Его изготовили NEC и Toshiba. Версия, изготовленная NEC, называется VR12000. Микропроцессор был представлен в ноябре 1998 года. Он доступен на частотах 270, 300 и 360 МГц. R12000 был разработан как временное решение после отмены проекта «Зверь», который намеревался поставить преемника R10000. Пользователи R12000 включают NEC, Siemens-Nixdorf , SGI и Tandem Computers (а затем Compaq после приобретения Tandem).

R12000 улучшает микроархитектуру R10000 за счет: добавления дополнительного конвейерного каскада для повышения тактовой частоты за счет разрешения критического пути; увеличение количества записей в таблице истории переходов, улучшение прогнозирования; изменение очередей инструкций таким образом, чтобы они учитывали возраст поставленных в очередь инструкций, позволяя выполнять более старые инструкции перед более новыми, если это возможно.

R12000 был изготовлен NEC и Toshiba по технологии CMOS 0,25 мкм с четырьмя уровнями межсоединений из алюминия . Новое использование нового процесса не означает, что R12000 был простым усадочным штампом с измененной микроархитектурой; компоновка матрицы оптимизирована для использования технологического процесса 0,25 мкм. [4] [5] Изготовленный NEC VR12000 содержал 7,15 миллиона транзисторов и имел размеры 15,7 на 14,6 мм (229,22 мм 2 ).

R12000A [ править ]

R12000A является производным от R12000, разработанного SGI. Представленный в июле 2000 года, он работает на частоте 400 МГц и был изготовлен NEC по технологии 0,18 мкм с алюминиевыми межсоединениями .

R14000 [ править ]

R14000 является дальнейшим развитием R12000, анонсированного в июле 2001 года. R14000 работает на частоте 500 МГц, что обеспечивается технологией CMOS 0,13 мкм с пятью уровнями медных соединений, из которых он изготовлен. В нем улучшена микроархитектура R12000 за счет поддержки SSRAM с удвоенной скоростью передачи данных (DDR) для вторичного кэша и системной шины 200 МГц. [6]

R14000A [ править ]

R14000A является дальнейшим развитием R14000, анонсированного в феврале 2002 года. Он работает на частоте 600 МГц, рассеивает около 17 Вт и был изготовлен корпорацией NEC по технологии CMOS 0,13 мкм с семью уровнями медных соединений. [6]

R16000 [ править ]

R16000 под кодовым названием N0 является последней производной от R10000. Он разработан SGI и изготовлен NEC по технологии 0,11 мкм с восемью уровнями медных межсоединений. Микропроцессор был представлен 9 января 2003 года, дебютировал на частоте 700 МГц для Fuel, а также использовался в их Onyx4 Ultimate Vision . [7] В апреле 2003 года для Origin 350 была представлена ​​версия 600 МГц . Улучшения включают кеши инструкций и данных размером 64 КБ.

R16000A [ править ]

R16000A относится к микропроцессорам R16000 с тактовой частотой выше 700 МГц. Первый R16000A - это версия 800 МГц, представленная 4 февраля 2004 года. Позже была представлена ​​версия 900 МГц, и эта версия в течение некоторого времени была самым быстрым из публично известных R16000A - позже SGI сообщила, что выбранным клиенты. Среди пользователей R16000 были HP и SGI. SGI использовала микропроцессор на своих рабочих станциях Fuel и Tezro ; а также серверы и суперкомпьютеры Origin 3000 . HP использовала R16000A в своих отказоустойчивых серверах NonStop Himalaya серии S, унаследованных от Tandem через Compaq.

R18000 [ править ]

R18000 представляет собой отмененное дальнейшее развитие микроархитектуры R10000, в котором были представлены значительные улучшения Silicon Graphics, Inc., описанные на симпозиуме Hot Chips в 2001 году. R18000 был разработан специально для серверов и суперкомпьютеров SGI ccNUMA. Каждый узел будет иметь два R18000, подключенных через мультиплексную шину к системному контроллеру, который будет связывать микропроцессоры с их локальной памятью и остальной системой через сеть гиперкубов.

В R18000 улучшены очереди команд с плавающей запятой и переработан модуль с плавающей запятой, чтобы иметь два модуля умножения-сложения, что в четыре раза увеличивает максимальное количество FLOPS. Деление и извлечение квадратного корня будут выполняться в отдельных неконвейерных модулях параллельно с модулями умножения и сложения. Также были существенно переработаны системный интерфейс и иерархия памяти. Он будет иметь 52-битный виртуальный адрес и 48-битный физический адрес. Двунаправленный мультиплексированный адрес и системная шина данных более ранних моделей будут заменены двумя однонаправленными каналами DDR, 64-битным мультиплексированным адресом и путем записи и 128-битным путем чтения. Пути можно использовать совместно с другим R18000 посредством мультиплексирования. Шину также можно настроить в конфигурации SysAD или Avalanche для обеспечения обратной совместимости с системами R10000.

R18000 будет иметь четырехсторонний ассоциативный вторичный кэш объемом 1 МБ, который должен быть встроен в кристалл; дополняется дополнительным третичным кешем, построенным на основе SSRAM с одинарной или двойной скоростью передачи данных (SDR) или DDR SDRAM емкостью от 2 до 64 МБ. Кэш L3 будет иметь свои теги кэша, эквивалентные 400 КБ, расположенные на кристалле, чтобы уменьшить задержку. Доступ к кешу L3 будет осуществляться через 144-битную шину, из которых 128 бит предназначены для данных, а 16 бит - для ECC. Тактовая частота кэша L3 будет программируемой.

R18000 должен был быть изготовлен по технологии NEC UX5, 0,13 мкм КМОП-технологии с девятью уровнями медного соединения . Он должен был использовать источник питания 1,2 В и рассеивать меньше тепла, чем современные серверные микропроцессоры, чтобы быть плотно упакованным в системы.

Заметки [ править ]

  1. ^ Gwennap, Линли (27 января 1997). «Альфа-паруса, цепы PowerPC». Отчет о микропроцессоре, стр. 1, 6–9., Стр. 8. "
  2. Йегер, Кеннет С. (апрель 1996 г.). "Суперскалярный микропроцессор MIPS R10000". IEEE Micro., Стр. 28.
  3. ^ Gwennap, Линли (24 октября 1994). «MIPS R10000 использует развязанную архитектуру». Отчет о микропроцессоре, Том 8, номер 14., стр. 4.
  4. ^ Gwennap, Линли (6 октября 1997). «MIPS R12000 до 300 МГц». Отчет микропроцессора, том 11, номер 13.
  5. ^ Halfhill, Том Р. (январь 1998). «RISC сопротивляется с помощью Mips R12000». Байт Журнал.
  6. ^ a b ComputerWire (2 июля 2002 г.). «SGI разработает чипы MIPS для Origin, Onyx» . Реестр.
  7. Silicon Graphics, Inc. (9 января 2003 г.). SGI увеличивает соотношение цены и производительности на семействе рабочих станций Silicon Graphics Fuel Visual Workstation до 25%. (Пресс-релиз).

Ссылки [ править ]

  • ComputerWire (2 июля 2002 г.). «SGI разработает чипы MIPS для Origin, Onyx» . Реестр .
  • Фу, Тим и др. (31 августа 2001 г.). «R18000: новейший суперскалярный микропроцессор SGI» . Горячие чипсы XIII .
  • Гвеннап, Линли (24 октября 1994 г.). «MIPS R10000 использует развязанную архитектуру» . Отчет микропроцессора , том 8, номер 14.
  • Гвеннап, Линли (27 января 1997 г.). «Альфа-паруса, цепы PowerPC». Отчет о микропроцессоре , стр. 1, 6–9.
  • Гвеннап, Линли (6 октября 1997 г.). «MIPS R12000 до 300 МГц» . Отчет микропроцессора , том 11, номер 13.
  • Халфхилл, Том Р. (ноябрь 1994 г.). «T5: Грубая сила» . Байт Журнал .
  • Халфхилл, Том Р. (январь 1998 г.). «RISC сопротивляется с помощью Mips R12000». Байт Журнал .
  • Генрих, Джо (29 января 1997 г.). «Руководство пользователя микропроцессора MIPS R10000» .
  • Канеллос, Майкл; Кавамото, Рассвет (9 апреля 1998 г.). «Silicon Graphics отказывается от планов MIPS» . CNET News .
  • MIPS Technologies, Incorporated. (Октябрь 1994 г.). «Обзор микропроцессора R10000» [ постоянная мертвая ссылка ] .
  • Морган, Тимоти Прикетт (16 апреля 2003 г.). «SGI объявляет о выпуске высокопроизводительного сервера среднего уровня Origin 350». ИТ-джунгли .
  • Корпорация NEC (24 ноября 1998 г.). NEC представляет микропроцессор высочайшего класса в мире . ( Пресс-релиз ).
  • Шенкленд, Стивен (15 апреля 2003 г.). «SGI обновляет сервер Unix среднего уровня». CNet News .
  • Silicon Graphics, Inc. (9 января 2003 г.). SGI увеличивает соотношение цены и производительности на семействе рабочих станций Silicon Graphics Fuel Visual Workstation до 25% . ( Пресс-релиз ).
  • Vasseghi, N. et al. (Ноябрь 1996 г.). «Суперскалярный RISC-микропроцессор с частотой 200 МГц» . Журнал IEEE по твердотельным схемам 31 (11): стр. 1675–1686.
  • Йегер, Кеннет С. (апрель 1996 г.). «Суперскалярный микропроцессор MIPS R10000» [ постоянная мертвая ссылка ] . IEEE Micro .
  • Йегер, Кеннет С. (август 1995 г.). «Суперскалярный микропроцессор R10000» . Горячие чипсы VII .