Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Паскаль - это кодовое название микроархитектуры графического процессора, разработанной Nvidia в качестве преемника архитектуры Maxwell . Архитектура была впервые представлена ​​в апреле 2016 года с выпуском Tesla P100 (GP100) 5 апреля 2016 года и в основном используется в серии GeForce 10 , начиная с GeForce GTX 1080 и GTX 1070 (в обеих используется графический процессор GP104). , которые были выпущены 17 мая 2016 г. и 10 июня 2016 г. соответственно. Паскаль был изготовлен с использованием TSMC «с 16 нм FinFET процесс, [1] , а затем Samsung » ы 14 нм процесса FinFET. [2]   

Архитектура названа в честь французского математика и физика 17 века Блеза Паскаля .

18 марта 2019 года Nvidia объявила, что в драйвере, который должен выйти в апреле 2019 года, они включат DirectX Raytracing на картах на базе Pascal, начиная с GTX 1060 6 ГБ, а в картах серии 16 - функция, зарезервированная для карт на основе Тьюринга. Серия RTX до этого момента. [3]

Подробности [ править ]

Снимок графического процессора GP102 внутри видеокарт GeForce GTX 1080 Ti
Снимок графического процессора GP106 внутри видеокарт GTX 1060

В марте 2014 года Nvidia объявила, что преемником Maxwell станет микроархитектура Pascal; объявлено 6 мая 2016 г. и выпущено 27 мая того же года. Tesla P100 (чип GP100) имеет другую версию архитектуры Pascal по сравнению с графическими процессорами GTX (чип GP104). В шейдерных блоках в GP104 имеет Maxwell -like дизайна. [4]

Архитектурные улучшения архитектуры GP100 включают следующее: [5] [6] [7]

  • В Паскале SM (потоковый мультипроцессор) состоит из 64-128 ядер CUDA, в зависимости от того, GP100 это или GP104. Максвелл упаковал 128, Kepler 192, Fermi 32 и Tesla только 8 ядер CUDA в SM; GP100 SM разделен на два блока обработки, каждый из которых имеет 32 ядра CUDA одинарной точности, буфер команд, планировщик деформации, 2 модуля отображения текстуры и 2 модуля диспетчеризации.
  • Возможности вычислений CUDA 6.1.
  • Память с высокой пропускной способностью 2 - некоторые карты содержат 16 ГиБ HBM2 в четырех стеках с общей 4096-битной шиной с пропускной способностью памяти 720 ГБ / с.
  • Унифицированная память - это архитектура памяти, в которой ЦП и графический процессор могут получать доступ как к основной системной памяти, так и к памяти видеокарты с помощью технологии, называемой «Механизм миграции страниц».
  • NVLink - шина с высокой пропускной способностью между процессором и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достигаются при использовании PCI Express; по оценкам, обеспечивает от 80 до 200 ГБ / с. [8] [9]
  • 16-битные ( FP16 ) операции с плавающей запятой (в просторечии «половинная точность») могут выполняться с удвоенной скоростью 32-битных операций с плавающей запятой («одинарная точность») [10] и 64-битных операций с плавающей запятой ( в просторечии «двойная точность») выполняется на половине скорости 32-битных операций с плавающей запятой. [11]
  • Больше регистров - вдвое больше регистров на ядро ​​CUDA по сравнению с Maxwell.
  • Больше общей памяти.
  • Система планирования динамической балансировки нагрузки. [12] Это позволяет планировщику динамически регулировать количество GPU, назначенного нескольким задачам, гарантируя, что GPU остается загруженным работой, за исключением случаев, когда больше нет работы, которую можно безопасно распределить для распределения. [12] Поэтому Nvidia безопасно включила асинхронные вычисления в драйвере Паскаля. [12]
  • Вытеснение на уровне инструкций и потоков. [13]

Архитектурные улучшения архитектуры GP104 включают следующее: [4]

  • Возможности вычислений CUDA 6.1.
  • GDDR5X - новый стандарт памяти с поддержкой скорости передачи данных 10 Гбит / с, обновленный контроллер памяти. [14]
  • Одновременная мульти-проекция - создание нескольких проекций одного геометрического потока, когда он поступает в движок SMP из вышестоящих этапов шейдера. [15]
  • DisplayPort 1.4, HDMI 2.0b.
  • Четвертое поколение Delta Color Compression.
  • Улучшенный интерфейс SLI - интерфейс SLI с большей пропускной способностью по сравнению с предыдущими версиями.
  • PureVideo Feature Set H аппаратное декодирование видео HEVC Main10 (10 бит), Main12 (12 бит) и аппаратное декодирование VP9.
  • Поддержка HDCP 2.2 для воспроизведения и потоковой передачи контента с защитой 4K DRM (Maxwell GM200 и GM204 не поддерживают HDCP 2.2, GM206 поддерживает HDCP 2.2). [16]
  • Аппаратное кодирование NVENC HEVC Main10 10 бит.
  • GPU Boost 3.0.
  • Вытеснение на уровне инструкций. [13] В графических задачах драйвер ограничивает вытеснение на уровне пикселей, потому что пиксельные задачи обычно заканчиваются быстро, а накладные расходы на выполнение вытеснения на уровне пикселей ниже, чем вытеснение на уровне команд (что дорого). [13] Вычислительные задачи получают приоритетное прерывание на уровне потоков или инструкций [13], потому что они могут занять больше времени для завершения, и нет никаких гарантий относительно того, когда вычислительная задача завершится. Таким образом, драйвер позволяет выполнять эти задачи с помощью дорогостоящего прерывания на уровне инструкций. [13]

Обзор [ править ]

Кластер графического процессора [ править ]

Чип разделен на кластеры графических процессоров (GPC). Для микросхем GP104 GPC включает в себя 5 SM.

Потоковый мультипроцессор "Паскаль" [ править ]

«Многопроцессор потоковой передачи» соответствует вычислительному блоку AMD . SMP включает 128 ALU одинарной точности («ядра CUDA») на микросхемах GP104 и 64 ALU одинарной точности на микросхемах GP100.

То, что AMD называет CU (вычислительным блоком), можно сравнить с тем, что Nvidia называет SM (потоковый мультипроцессор). В то время как все версии CU состоят из 64 шейдерных процессоров (т.е. 4 векторных модуля SIMD (каждый по 16 полос) = 64), Nvidia (регулярно называя шейдерные процессоры «ядрами CUDA») экспериментировала с очень разными числами:

  • На Tesla 1 SM объединено 8 шейдерных процессоров с одинарной точностью (FP32)
  • На Fermi 1 SM объединены 32 шейдерных процессора одиночной точности (FP32)
  • В Kepler 1 SM объединены 192 шейдерных процессора с одинарной точностью (FP32), а также 64 модуля с двойной точностью (по крайней мере, графические процессоры GK110).
  • В Maxwell 1 SM объединено 128 шейдерных процессоров с одинарной точностью (FP32)
  • От Паскаля это зависит:
    • В GP100 1 SM объединяет 64 шейдерных процессора с одинарной точностью (FP32) и 32 процессора с двойной точностью (FP64), обеспечивая соотношение пропускной способности с одинарной и двойной точностью 2: 1. В GP100 используются более гибкие ядра FP32, которые могут обрабатывать одно или два числа половинной точности в двухэлементном векторе. [17] Nvidia намеревается решить с их помощью вычисление алгоритмов, связанных с глубоким обучением.
    • В GP104 1 SM объединяет 128 ALU одинарной точности, 4 ALU двойной точности, обеспечивающих соотношение 32: 1, и один ALU половинной точности, который содержит вектор из двух чисел с плавающей запятой половинной точности, которые могут выполнять одну и ту же инструкцию для обоих чисел с плавающей запятой, обеспечивая соотношение 64: 1, если на обоих элементах используется одна и та же инструкция.

Polymorph-Engine 4.0 [ править ]

Polymorph Engine версии 4.0 - это модуль, отвечающий за тесселяцию . Функционально он соответствует геометрическому процессору AMD . Он был перемещен из модуля шейдера в TPC, чтобы позволить одному движку Polymorph обрабатывать несколько SM в TPC. [18]

Чипсы [ править ]

  • GP100: ускоритель графического процессора Nvidia Tesla P100 предназначен для приложений GPGPU, таких как вычисления с двойной точностью FP64 и обучение глубокому обучению с использованием FP16. Он использует память HBM2 . [19] Quadro GP100 также использует графический процессор GP100.
  • GP102: Этот графический процессор используется в TITAN Xp, [20] Titan X [21] и GeForce GTX 1080 Ti. Он также используется в Quadro P6000 [22] и Tesla P40. [23]
  • GP104: этот графический процессор используется в GeForce GTX 1070, GTX 1070 Ti и GTX 1080. GTX 1070 имеет 15/20, а GTX 1070 Ti - 19/20 задействованных SM. Оба подключены к памяти GDDR5, а GTX 1080 является полноценным чипом и подключается к памяти GDDR5X. Он также используется в Quadro P5000, Quadro P4000 и Tesla P4.
  • GP106: Этот графический процессор используется в GeForce GTX 1060 с памятью GDDR5 / GDDR5X [24] . [25] [26] Он также используется в Quadro P2000.
  • GP107: этот графический процессор используется в GeForce GTX 1050 Ti и GeForce GTX 1050. Он также используется в Quadro P1000, Quadro P600, Quadro P620 и Quadro P400.
  • GP108: этот графический процессор используется в GeForce GT 1010 и GeForce GT 1030.

На микросхеме GP104 SM состоит из 128 ALU одинарной точности («ядра CUDA»), на GP100 - из 64 ALU одинарной точности. Из-за разной организации микросхем, например количества ALU двойной точности, теоретическая производительность GP100 при двойной точности составляет половину от теоретической производительности одинарной точности; соотношение 1/32 для микросхемы GP104.

Производительность [ править ]

Теоретическая мощность обработки с одинарной точностью графического процессора Pascal в GFLOPS вычисляется как 2 X (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в ГГц).

Теоретическая мощность обработки двойной точности графического процессора Pascal составляет 1/2 от производительности одинарной точности на Nvidia GP100 и 1/32 от производительности Nvidia GP102, GP104, GP106, GP107 и GP108.

Теоретическая мощность обработки половинной точности графического процессора Pascal в 2 раза выше производительности одинарной точности на GP100 [11] и 1/64 на GP104, GP106, GP107 и GP108. [17]

Преемник [ править ]

На смену архитектуре Pascal в 2017 г. пришла Volta на рынке высокопроизводительных вычислений , облачных вычислений и беспилотных автомобилей , а в 2018 г. - Turing на потребительском и бизнес-рынке. [31]

См. Также [ править ]

  • Список графических процессоров Nvidia

Ссылки [ править ]

  1. ^ "NVIDIA 7-нм графические процессоры следующего поколения, которые будут построены TSMC" . Wccftech . 24 июня 2018 . Дата обращения 6 июля 2019 .
  2. ^ "Samsung для оптического сжатия NVIDIA" Паскаль "до 14 нм" . Проверено 13 августа 2016 года .
  3. ^ «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX» . NVIDIA .
  4. ^ a b «NVIDIA GeForce GTX 1080» (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .
  5. Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal» . Blogs.nvidia.com . Проверено 25 марта 2014 .
  6. ^ "Параллельный Форалл" . Зона разработчиков NVIDIA . Devblogs.nvidia.com. Архивировано из оригинала на 2014-03-26 . Проверено 25 марта 2014 .
  7. ^ "NVIDIA Tesla P100" (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .
  8. ^ "nside Pascal: новейшая вычислительная платформа NVIDIA" . 2016-04-05.
  9. ^ Денис Фоули (2014-03-25). "NVLink, Pascal и Stacked Memory: удовлетворение аппетита к большим данным" . nvidia.com . Проверено 7 июля 2014 .
  10. ^ «Архитектура графического процессора Pascal нового поколения от NVIDIA, обеспечивающая 10-кратное ускорение приложений для глубокого обучения» . Официальный блог NVIDIA . Проверено 23 марта 2015 года .
  11. ^ a b Смит, Райан (2015-04-05). «NVIDIA анонсирует ускоритель Tesla P100 - мощность Pascal GP100 для высокопроизводительных вычислений» . AnandTech . Проверено 27 мая 2016 . Каждый из этих SM также содержит 32 ядра FP64 CUDA, что дает нам 1/2 скорости для FP64, и новинка архитектуры Pascal - это возможность упаковать 2 операции FP16 в одном ядре FP32 CUDA при правильных обстоятельствах.
  12. ^ a b c Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 9 . Проверено 21 июля, 2016 .
  13. ^ a b c d e Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 10 . Проверено 21 июля, 2016 .
  14. ^ «Видеокарта GTX 1080» . GeForce . Проверено 15 сентября 2016 .
  15. ^ Карботт, Кевин (2016-05-17). "Nvidia GeForce GTX 1080 Одновременное мультипроекционное и асинхронное вычисление" . Tomshardware.com . Проверено 15 сентября 2016 .
  16. ^ «Nvidia Pascal HDCP 2.2» . Страница оборудования Nvidia . Проверено 8 мая 2016 .
  17. ^ a b Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 5 . Проверено 21 июля, 2016 .
  18. Рианна Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 4 . Проверено 21 июля, 2016 .
  19. Рианна Харрис, Марк (5 апреля 2016 г.). «Внутри Паскаля: новейшая вычислительная платформа NVIDIA» . Параллельный Форалл . Nvidia . Проверено 3 июня 2016 года .
  20. ^ «Графическая карта NVIDIA TITAN Xp с архитектурой Pascal» . NVIDIA .
  21. ^ «Графическая карта NVIDIA TITAN X с Паскалем» . GeForce . Проверено 15 сентября 2016 .
  22. ^ «Новая графика Quadro, построенная на архитектуре Паскаля» . NVIDIA . Проверено 15 сентября 2016 .
  23. ^ «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров» . NVIDIA . Проверено 15 сентября 2016 .
  24. ^ https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1060/
  25. ^ «NVIDIA GeForce GTX 1060 выйдет 7 июля» . VideoCardz.com . Проверено 15 сентября 2016 .
  26. ^ «Графические карты GTX 1060» . GeForce . Проверено 15 сентября 2016 .
  27. ^ Смит, Райан (12 ноября 2012 г.). «NVIDIA представляет Tesla K20 и K20X: GK110 наконец-то прибыл» . AnandTech . п. 3 . Проверено 24 июля, 2016 .
  28. ^ Б с д е е Nvidia (1 сентября 2015). «Руководство по программированию CUDA C» . Проверено 24 июля, 2016 .
  29. ^ a b c d e f g h i j k l m n o Триоле, Дэмиен (24 мая 2016 г.). "Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!" . Hardware.fr (на французском языке). п. 2 . Проверено 24 июля, 2016 .
  30. ^ a b Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти» . AnandTech . п. 1 . Проверено 24 июля, 2016 .
  31. ^ «Дата выпуска NVIDIA Turing» . Техрадар .