Паскаль (микроархитектура)

Nvidia Pascal
История
GTX 1070, вторая коммерчески доступная карта, использующая архитектуру Pascal.
Дата выхода	5 апреля 2016 г.
Процесс изготовления	TSMC 16 нм ( FinFET ) Samsung 14 нм (FinFET)
Предшественник	Максвелл
Преемник	Тьюринг (потребитель) Volta (рабочая станция / дата-центр)

Паскаль - это кодовое название микроархитектуры графического процессора, разработанной Nvidia в качестве преемника архитектуры Maxwell . Архитектура была впервые представлена в апреле 2016 года с выпуском Tesla P100 (GP100) 5 апреля 2016 года и в основном используется в серии GeForce 10 , начиная с GeForce GTX 1080 и GTX 1070 (в обеих используется графический процессор GP104). , которые были выпущены 17 мая 2016 г. и 10 июня 2016 г. соответственно. Паскаль был изготовлен с использованием TSMC «с 16 нм FinFET процесс, ^[1] , а затем Samsung » ы 14 нм процесса FinFET. ^[2]

Архитектура названа в честь французского математика и физика 17 века Блеза Паскаля .

18 марта 2019 года Nvidia объявила, что в драйвере, который должен выйти в апреле 2019 года, они включат DirectX Raytracing на картах на базе Pascal, начиная с GTX 1060 6 ГБ, а в картах серии 16 - функция, зарезервированная для карт на основе Тьюринга. Серия RTX до этого момента. ^[3]

Подробности [ править ]

Снимок графического процессора GP102 внутри видеокарт GeForce GTX 1080 Ti

Снимок графического процессора GP106 внутри видеокарт GTX 1060

В марте 2014 года Nvidia объявила, что преемником Maxwell станет микроархитектура Pascal; объявлено 6 мая 2016 г. и выпущено 27 мая того же года. Tesla P100 (чип GP100) имеет другую версию архитектуры Pascal по сравнению с графическими процессорами GTX (чип GP104). В шейдерных блоках в GP104 имеет Maxwell -like дизайна. ^[4]

Архитектурные улучшения архитектуры GP100 включают следующее: ^[5]^[6]^[7]

В Паскале SM (потоковый мультипроцессор) состоит из 64-128 ядер CUDA, в зависимости от того, GP100 это или GP104. Максвелл упаковал 128, Kepler 192, Fermi 32 и Tesla только 8 ядер CUDA в SM; GP100 SM разделен на два блока обработки, каждый из которых имеет 32 ядра CUDA одинарной точности, буфер команд, планировщик деформации, 2 модуля отображения текстуры и 2 модуля диспетчеризации.
Возможности вычислений CUDA 6.1.
Память с высокой пропускной способностью 2 - некоторые карты содержат 16 ГиБ HBM2 в четырех стеках с общей 4096-битной шиной с пропускной способностью памяти 720 ГБ / с.
Унифицированная память - это архитектура памяти, в которой ЦП и графический процессор могут получать доступ как к основной системной памяти, так и к памяти видеокарты с помощью технологии, называемой «Механизм миграции страниц».
NVLink - шина с высокой пропускной способностью между процессором и графическим процессором, а также между несколькими графическими процессорами. Обеспечивает гораздо более высокие скорости передачи, чем те, которые достигаются при использовании PCI Express; по оценкам, обеспечивает от 80 до 200 ГБ / с. ^[8]^[9]
16-битные ( FP16 ) операции с плавающей запятой (в просторечии «половинная точность») могут выполняться с удвоенной скоростью 32-битных операций с плавающей запятой («одинарная точность») ^[10] и 64-битных операций с плавающей запятой ( в просторечии «двойная точность») выполняется на половине скорости 32-битных операций с плавающей запятой. ^[11]
Больше регистров - вдвое больше регистров на ядро CUDA по сравнению с Maxwell.
Больше общей памяти.
Система планирования динамической балансировки нагрузки. ^[12] Это позволяет планировщику динамически регулировать количество GPU, назначенного нескольким задачам, гарантируя, что GPU остается загруженным работой, за исключением случаев, когда больше нет работы, которую можно безопасно распределить для распределения. ^[12] Поэтому Nvidia безопасно включила асинхронные вычисления в драйвере Паскаля. ^[12]
Вытеснение на уровне инструкций и потоков. ^[13]

Архитектурные улучшения архитектуры GP104 включают следующее: ^[4]

Возможности вычислений CUDA 6.1.
GDDR5X - новый стандарт памяти с поддержкой скорости передачи данных 10 Гбит / с, обновленный контроллер памяти. ^[14]
Одновременная мульти-проекция - создание нескольких проекций одного геометрического потока, когда он поступает в движок SMP из вышестоящих этапов шейдера. ^[15]
DisplayPort 1.4, HDMI 2.0b.
Четвертое поколение Delta Color Compression.
Улучшенный интерфейс SLI - интерфейс SLI с большей пропускной способностью по сравнению с предыдущими версиями.
PureVideo Feature Set H аппаратное декодирование видео HEVC Main10 (10 бит), Main12 (12 бит) и аппаратное декодирование VP9.
Поддержка HDCP 2.2 для воспроизведения и потоковой передачи контента с защитой 4K DRM (Maxwell GM200 и GM204 не поддерживают HDCP 2.2, GM206 поддерживает HDCP 2.2). ^[16]
Аппаратное кодирование NVENC HEVC Main10 10 бит.
GPU Boost 3.0.
Вытеснение на уровне инструкций. ^[13] В графических задачах драйвер ограничивает вытеснение на уровне пикселей, потому что пиксельные задачи обычно заканчиваются быстро, а накладные расходы на выполнение вытеснения на уровне пикселей ниже, чем вытеснение на уровне команд (что дорого). ^[13] Вычислительные задачи получают приоритетное прерывание на уровне потоков или инструкций ^[13], потому что они могут занять больше времени для завершения, и нет никаких гарантий относительно того, когда вычислительная задача завершится. Таким образом, драйвер позволяет выполнять эти задачи с помощью дорогостоящего прерывания на уровне инструкций. ^[13]

Обзор [ править ]

Кластер графического процессора [ править ]

Чип разделен на кластеры графических процессоров (GPC). Для микросхем GP104 GPC включает в себя 5 SM.

Потоковый мультипроцессор "Паскаль" [ править ]

«Многопроцессор потоковой передачи» соответствует вычислительному блоку AMD . SMP включает 128 ALU одинарной точности («ядра CUDA») на микросхемах GP104 и 64 ALU одинарной точности на микросхемах GP100.

То, что AMD называет CU (вычислительным блоком), можно сравнить с тем, что Nvidia называет SM (потоковый мультипроцессор). В то время как все версии CU состоят из 64 шейдерных процессоров (т.е. 4 векторных модуля SIMD (каждый по 16 полос) = 64), Nvidia (регулярно называя шейдерные процессоры «ядрами CUDA») экспериментировала с очень разными числами:

На Tesla 1 SM объединено 8 шейдерных процессоров с одинарной точностью (FP32)
На Fermi 1 SM объединены 32 шейдерных процессора одиночной точности (FP32)
В Kepler 1 SM объединены 192 шейдерных процессора с одинарной точностью (FP32), а также 64 модуля с двойной точностью (по крайней мере, графические процессоры GK110).
В Maxwell 1 SM объединено 128 шейдерных процессоров с одинарной точностью (FP32)
От Паскаля это зависит:
- В GP100 1 SM объединяет 64 шейдерных процессора с одинарной точностью (FP32) и 32 процессора с двойной точностью (FP64), обеспечивая соотношение пропускной способности с одинарной и двойной точностью 2: 1. В GP100 используются более гибкие ядра FP32, которые могут обрабатывать одно или два числа половинной точности в двухэлементном векторе. ^[17] Nvidia намеревается решить с их помощью вычисление алгоритмов, связанных с глубоким обучением.
- В GP104 1 SM объединяет 128 ALU одинарной точности, 4 ALU двойной точности, обеспечивающих соотношение 32: 1, и один ALU половинной точности, который содержит вектор из двух чисел с плавающей запятой половинной точности, которые могут выполнять одну и ту же инструкцию для обоих чисел с плавающей запятой, обеспечивая соотношение 64: 1, если на обоих элементах используется одна и та же инструкция.

Polymorph-Engine 4.0 [ править ]

Polymorph Engine версии 4.0 - это модуль, отвечающий за тесселяцию . Функционально он соответствует геометрическому процессору AMD . Он был перемещен из модуля шейдера в TPC, чтобы позволить одному движку Polymorph обрабатывать несколько SM в TPC. ^[18]

Чипсы [ править ]

GP100: ускоритель графического процессора Nvidia Tesla P100 предназначен для приложений GPGPU, таких как вычисления с двойной точностью FP64 и обучение глубокому обучению с использованием FP16. Он использует память HBM2 . ^[19] Quadro GP100 также использует графический процессор GP100.
GP102: Этот графический процессор используется в TITAN Xp, ^[20] Titan X ^[21] и GeForce GTX 1080 Ti. Он также используется в Quadro P6000 ^[22] и Tesla P40. ^[23]
GP104: этот графический процессор используется в GeForce GTX 1070, GTX 1070 Ti и GTX 1080. GTX 1070 имеет 15/20, а GTX 1070 Ti - 19/20 задействованных SM. Оба подключены к памяти GDDR5, а GTX 1080 является полноценным чипом и подключается к памяти GDDR5X. Он также используется в Quadro P5000, Quadro P4000 и Tesla P4.
GP106: Этот графический процессор используется в GeForce GTX 1060 с памятью GDDR5 / GDDR5X ^[24] . ^[25]^[26] Он также используется в Quadro P2000.
GP107: этот графический процессор используется в GeForce GTX 1050 Ti и GeForce GTX 1050. Он также используется в Quadro P1000, Quadro P600, Quadro P620 и Quadro P400.
GP108: этот графический процессор используется в GeForce GT 1010 и GeForce GT 1030.

На микросхеме GP104 SM состоит из 128 ALU одинарной точности («ядра CUDA»), на GP100 - из 64 ALU одинарной точности. Из-за разной организации микросхем, например количества ALU двойной точности, теоретическая производительность GP100 при двойной точности составляет половину от теоретической производительности одинарной точности; соотношение 1/32 для микросхемы GP104.

Таблица сравнения некоторых микросхем Kepler, Maxwell и Pascal
	GK104	GK110	GM204 (GTX 970)	GM204 (GTX 980)	GM200	GP104	GP100
Выделенный кеш текстур на SM	48 КБ	N / A	N / A	N / A	N / A	N / A	N / A
Кэш текстур (графики или вычислений) или данных только для чтения (только вычисления) на SM	N / A	48 КБ ^[27]	N / A	N / A	N / A	N / A	N / A
Выбираемая программистом разделяемая память / разделы L1 на SM	48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию) ^[28]	48 КБ разделяемой памяти + 16 КБ кеш-памяти L1 (по умолчанию) ^[28]	N / A	N / A	N / A	N / A	N / A
	32 КБ общей памяти + 32 КБ кэш-памяти L1 ^[28]	32 КБ общей памяти + 32 КБ кэш-памяти L1 ^[28]
	16 КБ общей памяти + 48 КБ кэш-памяти L1 ^[28]	16 КБ общей памяти + 48 КБ кэш-памяти L1 ^[28]
Единый кэш L1 / кэш текстур для каждого SM	N / A	N / A	48 КБ ^[29]	48 КБ ^[29]	48 КБ ^[29]	48 КБ ^[29]	24 КБ ^[29]
Выделенная разделяемая память на SM	N / A	N / A	96 КБ ^[29]	96 КБ ^[29]	96 КБ ^[29]	96 КБ ^[29]	64 КБ ^[29]
Кэш L2 на чип	512 КБ ^[29]	1536 KiB ^[29]	1792 КБ ^[30]	2048 КБ ^[30]	3072 КБ ^[29]	2048 КБ ^[29]	4096 КБ ^[29]

Производительность [ править ]

Теоретическая мощность обработки с одинарной точностью графического процессора Pascal в GFLOPS вычисляется как 2 X (операций на инструкцию FMA на ядро CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в ГГц).

Теоретическая мощность обработки двойной точности графического процессора Pascal составляет 1/2 от производительности одинарной точности на Nvidia GP100 и 1/32 от производительности Nvidia GP102, GP104, GP106, GP107 и GP108.

Теоретическая мощность обработки половинной точности графического процессора Pascal в 2 раза выше производительности одинарной точности на GP100 ^[11] и 1/64 на GP104, GP106, GP107 и GP108. ^[17]

Преемник [ править ]

На смену архитектуре Pascal в 2017 г. пришла Volta на рынке высокопроизводительных вычислений , облачных вычислений и беспилотных автомобилей , а в 2018 г. - Turing на потребительском и бизнес-рынке. ^[31]

См. Также [ править ]

Список графических процессоров Nvidia

Ссылки [ править ]

^ "NVIDIA 7-нм графические процессоры следующего поколения, которые будут построены TSMC" . Wccftech . 24 июня 2018 . Дата обращения 6 июля 2019 .
^ "Samsung для оптического сжатия NVIDIA" Паскаль "до 14 нм" . Проверено 13 августа 2016 года .
^ «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX» . NVIDIA .
^ a b «NVIDIA GeForce GTX 1080» (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .
↑ Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal» . Blogs.nvidia.com . Проверено 25 марта 2014 .
^ "Параллельный Форалл" . Зона разработчиков NVIDIA . Devblogs.nvidia.com. Архивировано из оригинала на 2014-03-26 . Проверено 25 марта 2014 .
^ "NVIDIA Tesla P100" (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .
^ "nside Pascal: новейшая вычислительная платформа NVIDIA" . 2016-04-05.
^ Денис Фоули (2014-03-25). "NVLink, Pascal и Stacked Memory: удовлетворение аппетита к большим данным" . nvidia.com . Проверено 7 июля 2014 .
^ «Архитектура графического процессора Pascal нового поколения от NVIDIA, обеспечивающая 10-кратное ускорение приложений для глубокого обучения» . Официальный блог NVIDIA . Проверено 23 марта 2015 года .
^ a b Смит, Райан (2015-04-05). «NVIDIA анонсирует ускоритель Tesla P100 - мощность Pascal GP100 для высокопроизводительных вычислений» . AnandTech . Проверено 27 мая 2016 . Каждый из этих SM также содержит 32 ядра FP64 CUDA, что дает нам 1/2 скорости для FP64, и новинка архитектуры Pascal - это возможность упаковать 2 операции FP16 в одном ядре FP32 CUDA при правильных обстоятельствах.
^ a b c Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 9 . Проверено 21 июля, 2016 .
^ a b c d e Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 10 . Проверено 21 июля, 2016 .
^ «Видеокарта GTX 1080» . GeForce . Проверено 15 сентября 2016 .
^ Карботт, Кевин (2016-05-17). "Nvidia GeForce GTX 1080 Одновременное мультипроекционное и асинхронное вычисление" . Tomshardware.com . Проверено 15 сентября 2016 .
^ «Nvidia Pascal HDCP 2.2» . Страница оборудования Nvidia . Проверено 8 мая 2016 .
^ a b Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 5 . Проверено 21 июля, 2016 .
Рианна Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 4 . Проверено 21 июля, 2016 .
Рианна Харрис, Марк (5 апреля 2016 г.). «Внутри Паскаля: новейшая вычислительная платформа NVIDIA» . Параллельный Форалл . Nvidia . Проверено 3 июня 2016 года .
^ «Графическая карта NVIDIA TITAN Xp с архитектурой Pascal» . NVIDIA .
^ «Графическая карта NVIDIA TITAN X с Паскалем» . GeForce . Проверено 15 сентября 2016 .
^ «Новая графика Quadro, построенная на архитектуре Паскаля» . NVIDIA . Проверено 15 сентября 2016 .
^ «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров» . NVIDIA . Проверено 15 сентября 2016 .
^ https://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1060/
^ «NVIDIA GeForce GTX 1060 выйдет 7 июля» . VideoCardz.com . Проверено 15 сентября 2016 .
^ «Графические карты GTX 1060» . GeForce . Проверено 15 сентября 2016 .
^ Смит, Райан (12 ноября 2012 г.). «NVIDIA представляет Tesla K20 и K20X: GK110 наконец-то прибыл» . AnandTech . п. 3 . Проверено 24 июля, 2016 .
^ Б с д е е Nvidia (1 сентября 2015). «Руководство по программированию CUDA C» . Проверено 24 июля, 2016 .
^ a b c d e f g h i j k l m n o Триоле, Дэмиен (24 мая 2016 г.). "Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!" . Hardware.fr (на французском языке). п. 2 . Проверено 24 июля, 2016 .
^ a b Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти» . AnandTech . п. 1 . Проверено 24 июля, 2016 .
^ «Дата выпуска NVIDIA Turing» . Техрадар .

[1] "NVIDIA 7-нм графические процессоры следующего поколения, которые будут построены TSMC" . Wccftech . 24 июня 2018 . Дата обращения 6 июля 2019 .

[techpowerup2-2] "Samsung для оптического сжатия NVIDIA" Паскаль "до 14 нм" . Проверено 13 августа 2016 года .

[3] «Ускорение экосистемы трассировки лучей в реальном времени: DXR для GeForce RTX и GeForce GTX» . NVIDIA .

[GTX1080WhitePaper-4] «NVIDIA GeForce GTX 1080» (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .

[nvidia-blog-20140325-5] Гупта, Сумит (21 марта 2014 г.). «NVIDIA обновляет план развития графических процессоров; объявляет о выпуске Pascal» . Blogs.nvidia.com . Проверено 25 марта 2014 .

[6] "Параллельный Форалл" . Зона разработчиков NVIDIA . Devblogs.nvidia.com. Архивировано из оригинала на 2014-03-26 . Проверено 25 марта 2014 .

[7] "NVIDIA Tesla P100" (PDF) . International.download.nvidia.com . Проверено 15 сентября 2016 .

[8] "nside Pascal: новейшая вычислительная платформа NVIDIA" . 2016-04-05.

[9] Денис Фоули (2014-03-25). "NVLink, Pascal и Stacked Memory: удовлетворение аппетита к большим данным" . nvidia.com . Проверено 7 июля 2014 .

[10] «Архитектура графического процессора Pascal нового поколения от NVIDIA, обеспечивающая 10-кратное ускорение приложений для глубокого обучения» . Официальный блог NVIDIA . Проверено 23 марта 2015 года .

[anandtech_pascal1-11] Смит, Райан (2015-04-05). «NVIDIA анонсирует ускоритель Tesla P100 - мощность Pascal GP100 для высокопроизводительных вычислений» . AnandTech . Проверено 27 мая 2016 . Каждый из этих SM также содержит 32 ядра FP64 CUDA, что дает нам 1/2 скорости для FP64, и новинка архитектуры Pascal - это возможность упаковать 2 операции FP16 в одном ядре FP32 CUDA при правильных обстоятельствах.

[RyanSmithDynamicScheduling-12] Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 9 . Проверено 21 июля, 2016 .

[RyanSmithPreemption-13] Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 10 . Проверено 21 июля, 2016 .

[14] «Видеокарта GTX 1080» . GeForce . Проверено 15 сентября 2016 .

[15] Карботт, Кевин (2016-05-17). "Nvidia GeForce GTX 1080 Одновременное мультипроекционное и асинхронное вычисление" . Tomshardware.com . Проверено 15 сентября 2016 .

[16] «Nvidia Pascal HDCP 2.2» . Страница оборудования Nvidia . Проверено 8 мая 2016 .

[RyanSmithPrecision-17] Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 5 . Проверено 21 июля, 2016 .

[18] Рианна Смит, Райан (20 июля 2016 г.). «Обзор NVIDIA GeForce GTX 1080 и GTX 1070 Founders Editions: начало поколения FinFET» . AnandTech . п. 4 . Проверено 21 июля, 2016 .

[InsidePascal-19] Рианна Харрис, Марк (5 апреля 2016 г.). «Внутри Паскаля: новейшая вычислительная платформа NVIDIA» . Параллельный Форалл . Nvidia . Проверено 3 июня 2016 года .

[20] «Графическая карта NVIDIA TITAN Xp с архитектурой Pascal» . NVIDIA .

[21] «Графическая карта NVIDIA TITAN X с Паскалем» . GeForce . Проверено 15 сентября 2016 .

[22] «Новая графика Quadro, построенная на архитектуре Паскаля» . NVIDIA . Проверено 15 сентября 2016 .

[23] «Ускорение рабочих нагрузок центра обработки данных с помощью графических процессоров» . NVIDIA . Проверено 15 сентября 2016 .

[24] ttps://www.nvidia.com/en-us/geforce/products/10series/geforce-gtx-1060/

[25] «NVIDIA GeForce GTX 1060 выйдет 7 июля» . VideoCardz.com . Проверено 15 сентября 2016 .

[26] «Графические карты GTX 1060» . GeForce . Проверено 15 сентября 2016 .

[GK110-27] Смит, Райан (12 ноября 2012 г.). «NVIDIA представляет Tesla K20 и K20X: GK110 наконец-то прибыл» . AnandTech . п. 3 . Проверено 24 июля, 2016 .

[CudaCProgrammingGuide-28] Б с д е е Nvidia (1 сентября 2015). «Руководство по программированию CUDA C» . Проверено 24 июля, 2016 .

[hardware.fr-29] ^ a b c d e f g h i j k l m n o Триоле, Дэмиен (24 мая 2016 г.). "Nvidia GeForce GTX 1080, лучший графический процессор 16 нм в тесте!" . Hardware.fr (на французском языке). п. 2 . Проверено 24 июля, 2016 .

[GTX970FraudCorrections-30] Смит, Райан (26 января 2015 г.). «GeForce GTX 970: исправление характеристик и изучение распределения памяти» . AnandTech . п. 1 . Проверено 24 июля, 2016 .

[Techradar-31] «Дата выпуска NVIDIA Turing» . Техрадар .

[1]