Ампер (микроархитектура)

Nvidia Ampere
История
Дата выпуска	14 мая 2020 ( 2020-05-14 )
Процесс изготовления	TSMC 7 нм (профессиональный) Samsung 8 нм (потребительский)
Предшественник	Тьюринг (потребитель) Вольта (профессионал)
Преемник	Лавлейс (потребитель) Хоппер (профессионал)

Ampere - это кодовое название микроархитектуры графического процессора (GPU), разработанной Nvidia в качестве преемника архитектур Volta и Turing , официально анонсированной 14 мая 2020 года. Она названа в честь французского математика и физика Андре-Мари Ампера . ^[1]^[2] Nvidia анонсировала потребительские графические процессоры следующего поколения GeForce 30 на специальном мероприятии GeForce 1 сентября 2020 г. ^[3]^[4] Nvidia анонсировала графический процессор A100 80 ГБ на SC20 16 ноября 2020 г. ^[5] Видеокарты Mobile RTX и RTX 3060 были представлены 12 января 2021 г. ^[6] Nvidia также анонсировала преемников Ampere под условным кодовым названием Ampere Next для выпуска 2022 года и «Ampere Next Next» для выпуска 2024 года на конференции GPU Technology Conference 2021.

Подробности [ править ]

Архитектурные улучшения архитектуры Ampere включают следующее:

CUDA Compute Capability 8.0 для A100 и 8.6 для серии GeForce 30 ^[7]
TSMC «ы 7 нм FinFET процесс A100
Специальная версия 8 - нм техпроцесса Samsung (8N) для серии GeForce 30 ^[8]
Тензорные ядра третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и ускорением разреженности ^[9]
Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
Память с высокой пропускной способностью 2 (HBM2) на A100 40 ГБ и A100 80 ГБ
Память GDDR6X для GeForce RTX 3090 и 3080
Двойные ядра FP32 на SM на графических процессорах GA10x
NVLink 3.0 с пропускной способностью 50 Гбит / с на пару ^[9]
PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
PureVideo набор функции К аппаратному декодированию видео с AV1 аппаратного декодирования ^[10] для GeForce серии 30 и набора функций J для A100
5 NVDEC для A100
Добавляет новое аппаратное 5- ядерное декодирование JPEG ( NVJPG ) с YUV420, YUV422, YUV444, YUV400, RGBA. Не следует путать с Nvidia NVJPEG ( библиотека с ускорением на GPU для кодирования / декодирования JPEG)

Чипсы [ править ]

GA100
GA102
GA104
GA106
GA107

Сравнение вычислительных возможностей: GP100, GV100, GA100 ^[11]

Возможности графического процессора	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Кодовое имя GPU	GP100	GV100	GA100
Архитектура GPU	NVIDIA Паскаль	NVIDIA Volta	NVIDIA Ampere
Вычислительные возможности	6.0	7.0	8.0
Потоки / Деформация	32	32	32
Максимальное количество деформаций / SM	64	64	64
Максимальное количество потоков / SM	2048	2048	2048
Максимальное количество блоков резьбы / SM	32	32	32
Макс 32-битные регистры / SM	65536	65536	65536
Максимальное количество регистров / блок	65536	65536	65536
Максимальное количество регистров / поток	255	255	255
Максимальный размер блока резьбы	1024	1024	1024
Ядра FP32 / SM	64	64	64
Отношение регистров SM к ядрам FP32	1024	1024	1024
Размер общей памяти / SM	64 КБ	Настраивается до 96 КБ	Настраивается до 164 КБ

Сравнение матрицы поддержки точности ^[12]^[13]

	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)	FP16	FP32	FP64	INT1 (двоичный)	INT4	INT8	TF32	bfloat16 (BF16)
	Поддерживаемые точности CUDA Core								Поддерживаемая точность тензорного ядра
NVIDIA Тесла P4	Нет	да	да	Нет	Нет	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA P100	да	да	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA Volta	да	да	да	Нет	Нет	да	Нет	Нет	да	Нет	Нет	Нет	Нет	Нет	Нет	Нет
NVIDIA Тьюринг	да	да	да	Нет	Нет	да	Нет	Нет	да	Нет	Нет	да	да	да	Нет	Нет
NVIDIA A100	да	да	да	Нет	Нет	да	Нет	да	да	Нет	да	да	да	да	да	да

Сравнение производительности декодирования

Параллельные потоки	Декодирование H.264 (1080p30)	Декодирование H.265 (HEVC) (1080p30)	Декодирование VP9 (1080p30)
V100	16	22	22
A100	75	157	108

Ускоритель A100 и DGX A100 [ править ]

14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere. ^[9] A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти. ^[14] Ускоритель A100 изначально был доступен только в 3-м поколении серверов DGX , включая 8 A100. ^[9] В DGX A100 также входит 15 ТБ хранилища PCIe Gen 4 NVMe , ^[14] два 64-ядерных процессора AMD Rome 7742, 1 ТБ ОЗУ и межсоединение HDR InfiniBand с питанием от Mellanox . Первоначальная цена DGX A100 составляла 199 000 долларов. ^[9]

Сравнение ускорителей, используемых в DGX: ^[9]^[15]

Ускоритель
A100 80 ГБ
A100
V100
P100

Архитектура	Ядра CUDA FP32	Ядра FP64 (без Tensor)	Ядра INT32	Boost Clock	Часы памяти	Ширина шины памяти	Пропускная способность памяти	VRAM	Одинарная точность	Двойная точность (FP64)	INT8 (не тензорный)	INT8 Тензор	INT32	FP16	FP16 Тензор	bfloat16 Тензор	TensorFloat-32 (TF32) Тензор	FP64 Тензор	Соединить	GPU	Размер кэша L1	Размер кэша L2	Размер кристалла графического процессора	Количество транзисторов	TDP	Производственный процесс
Ампер	6912	3456	6912	1410 МГц	3,2 Гбит / с HBM2	5120-бит	2039 ГБ / сек	80 ГБ	19,5 терафлопс	9.7 терафлопс	N / A	624 ТОПов	19,5 ТОПов	78 терафлопс	312 терафлопс	312 терафлопс	156 терафлопс	19,5 терафлопс	600 ГБ / сек	GA100	20736 КБ (192 КБx108)	40960 КБ	826 мм2	54,2B	400 Вт	TSMC 7 нм N7
Ампер	6912	3456	6912	1410 МГц	2,4 Гбит / с HBM2	5120-бит	1555 ГБ / сек	40 ГБ	19,5 терафлопс	9.7 терафлопс	N / A	624 ТОПов	19,5 ТОПов	78 терафлопс	312 терафлопс	312 терафлопс	156 терафлопс	19,5 терафлопс	600 ГБ / сек	GA100	20736 КБ (192 КБx108)	40960 КБ	826 мм2	54,2B	400 Вт	TSMC 7 нм N7
Вольта	5120	2560	5120	1530 МГц	1,75 Гбит / с HBM2	4096 бит	900 ГБ / сек	16 ГБ / 32 ГБ	15.7 терафлопс	7,8 терафлопс	62 ТОП	N / A	15.7 ТОПы	31,4 терафлопс	125 терафлопс	N / A	N / A	N / A	300 ГБ / сек	GV100	10240 КБ (128 КБ x 80)	6144 КБ	815 мм2	21,1B	300 Вт / 350 Вт	TSMC 12 нм FFN
Паскаль	3584	1792	N / A	1480 МГц	1,4 Гбит / с HBM2	4096 бит	720 ГБ / сек	16 ГИГАБАЙТ	10.6 терафлопс	5.3 TFLOP	N / A	N / A	N / A	21.2 терафлопс	N / A	N / A	N / A	N / A	160 ГБ / сек	GP100	1344 КБ (24 КБ x 56)	4096 КБ	610 мм2	15.3B	300 Вт	TSMC 16 нм FinFET +

Продукты с использованием Ampere [ править ]

GeForce 30 серии
- GeForce RTX 3050 Ti (GA108)
- GeForce RTX 3050 (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
Графические процессоры Nvidia Workstation (ранее Quadro)
- RTX A2000 (мобильный) (GA10?)
- RTX A3000 (мобильный) (GA104)
- RTX A4000 (мобильный) (GA104)
- RTX A5000 (мобильный) (GA104)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
Графические процессоры Nvidia Data Center (ранее Tesla)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 ГБ (GA100)

См. Также [ править ]

Список графических процессоров Nvidia
Nvidia NVENC
Nvidia NVDEC

Ссылки [ править ]

^ Отдел новостей, NVIDIA. «Новый графический процессор NVIDIA Ampere Data Center в полном объеме» . Отдел новостей NVIDIA Newsroom .
^ "Архитектура NVIDIA Ampere в деталях" . Блог разработчиков NVIDIA . 14 мая 2020.
^ Отдел новостей, NVIDIA. «NVIDIA делает величайший скачок в истории с графическими процессорами серии GeForce RTX 30» . Отдел новостей NVIDIA Newsroom .
^ «NVIDIA GeForce Ultimate Countdown» . NVIDIA .
^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
^ https://www.nvidia.com/en-us/geforce/special-event/
^ «I.7. Вычислительные возможности 8.x» . docs.nvidia.com . Проверено 23 сентября 2020 года .
^ Б., Доминик. «Старая 8-нанометровая технология Samsung в основе чудовищных карт NVIDIA Ampere» . SamMobile . Проверено 19 сентября 2020 года .
^ a b c d e f Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель» . AnandTech.
^ «Графические процессоры серии GeForce RTX 30: открывая новую эру видеоконтента с декодированием AV1» . NVIDIA .
^ "NVIDIA A100 Tensor Core GPU Architecture" (PDF) . www.nvidia.com . Проверено 18 сентября 2020 года .
^ «Тензорные ядра NVIDIA: универсальность для высокопроизводительных вычислений и искусственного интеллекта» . NVIDIA .
^ «Аннотация» . docs.nvidia.com .
^ a b Том Уоррен; Джеймс Винсент (14 мая 2020 г.). «Первый графический процессор Ampere от Nvidia предназначен для центров обработки данных и искусственного интеллекта, а не для вашего ПК» . Грань.
^ «Тестирование NVIDIA Tesla V100: почти невероятная мощность графического процессора» . Твиктаун . 17 сентября 2017 года.

Внешние ссылки [ править ]

Технический документ по архитектуре графического процессора NVIDIA A100 с тензорными ядрами
Технический документ по архитектуре графического процессора Nvidia Ampere GA102
Архитектура Nvidia Ampere
Графический процессор Nvidia A100 с тензорным ядром
Подробное описание архитектуры NVIDIA Ampere

[1] Отдел новостей, NVIDIA. «Новый графический процессор NVIDIA Ampere Data Center в полном объеме» . Отдел новостей NVIDIA Newsroom .

[2] "Архитектура NVIDIA Ampere в деталях" . Блог разработчиков NVIDIA . 14 мая 2020.

[3] Отдел новостей, NVIDIA. «NVIDIA делает величайший скачок в истории с графическими процессорами серии GeForce RTX 30» . Отдел новостей NVIDIA Newsroom .

[4] «NVIDIA GeForce Ultimate Countdown» . NVIDIA .

[5] ttps://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing

[6] ttps://www.nvidia.com/en-us/geforce/special-event/

[7] «I.7. Вычислительные возможности 8.x» . docs.nvidia.com . Проверено 23 сентября 2020 года .

[8] Б., Доминик. «Старая 8-нанометровая технология Samsung в основе чудовищных карт NVIDIA Ampere» . SamMobile . Проверено 19 сентября 2020 года .

[anand-A100-9] Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель» . AnandTech.

[10] «Графические процессоры серии GeForce RTX 30: открывая новую эру видеоконтента с декодированием AV1» . NVIDIA .

[11] "NVIDIA A100 Tensor Core GPU Architecture" (PDF) . www.nvidia.com . Проверено 18 сентября 2020 года .

[12] «Тензорные ядра NVIDIA: универсальность для высокопроизводительных вычислений и искусственного интеллекта» . NVIDIA .

[13] «Аннотация» . docs.nvidia.com .

[verge-A100-14] Том Уоррен; Джеймс Винсент (14 мая 2020 г.). «Первый графический процессор Ampere от Nvidia предназначен для центров обработки данных и искусственного интеллекта, а не для вашего ПК» . Грань.

[15] «Тестирование NVIDIA Tesla V100: почти невероятная мощность графического процессора» . Твиктаун . 17 сентября 2017 года.

[1]