Дата выпуска | 14 мая 2020 |
---|---|
Процесс изготовления | |
История | |
Предшественник | |
Преемник |
Ampere - это кодовое название микроархитектуры графического процессора (GPU), разработанной Nvidia в качестве преемника архитектур Volta и Turing , официально анонсированной 14 мая 2020 года. Она названа в честь французского математика и физика Андре-Мари Ампера . [1] [2] Nvidia анонсировала потребительские графические процессоры следующего поколения GeForce 30 на специальном мероприятии GeForce 1 сентября 2020 г. [3] [4] Nvidia анонсировала графический процессор A100 80 ГБ на SC20 16 ноября 2020 г. [5] Видеокарты Mobile RTX и RTX 3060 были представлены 12 января 2021 г. [6] Nvidia также анонсировала преемников Ampere под условным кодовым названием Ampere Next для выпуска 2022 года и «Ampere Next Next» для выпуска 2024 года на конференции GPU Technology Conference 2021.
Подробности [ править ]
Архитектурные улучшения архитектуры Ampere включают следующее:
- CUDA Compute Capability 8.0 для A100 и 8.6 для серии GeForce 30 [7]
- TSMC «ы 7 нм FinFET процесс A100
- Специальная версия 8 - нм техпроцесса Samsung (8N) для серии GeForce 30 [8]
- Тензорные ядра третьего поколения с поддержкой FP16, bfloat16, TensorFloat-32 (TF32) и FP64 и ускорением разреженности [9]
- Ядра трассировки лучей второго поколения; одновременная трассировка лучей, затенение и вычисления для серии GeForce 30
- Память с высокой пропускной способностью 2 (HBM2) на A100 40 ГБ и A100 80 ГБ
- Память GDDR6X для GeForce RTX 3090 и 3080
- Двойные ядра FP32 на SM на графических процессорах GA10x
- NVLink 3.0 с пропускной способностью 50 Гбит / с на пару [9]
- PCI Express 4.0 с поддержкой SR-IOV (SR-IOV зарезервирован только для A100)
- Функция виртуализации многоэкземплярного графического процессора (MIG) и разделения графического процессора в A100 с поддержкой до семи экземпляров
- PureVideo набор функции К аппаратному декодированию видео с AV1 аппаратного декодирования [10] для GeForce серии 30 и набора функций J для A100
- 5 NVDEC для A100
- Добавляет новое аппаратное 5- ядерное декодирование JPEG ( NVJPG ) с YUV420, YUV422, YUV444, YUV400, RGBA. Не следует путать с Nvidia NVJPEG ( библиотека с ускорением на GPU для кодирования / декодирования JPEG)
Чипсы [ править ]
- GA100
- GA102
- GA104
- GA106
- GA107
Сравнение вычислительных возможностей: GP100, GV100, GA100 [11]
Возможности графического процессора | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
Кодовое имя GPU | GP100 | GV100 | GA100 |
Архитектура GPU | NVIDIA Паскаль | NVIDIA Volta | NVIDIA Ampere |
Вычислительные возможности | 6.0 | 7.0 | 8.0 |
Потоки / Деформация | 32 | 32 | 32 |
Максимальное количество деформаций / SM | 64 | 64 | 64 |
Максимальное количество потоков / SM | 2048 | 2048 | 2048 |
Максимальное количество блоков резьбы / SM | 32 | 32 | 32 |
Макс 32-битные регистры / SM | 65536 | 65536 | 65536 |
Максимальное количество регистров / блок | 65536 | 65536 | 65536 |
Максимальное количество регистров / поток | 255 | 255 | 255 |
Максимальный размер блока резьбы | 1024 | 1024 | 1024 |
Ядра FP32 / SM | 64 | 64 | 64 |
Отношение регистров SM к ядрам FP32 | 1024 | 1024 | 1024 |
Размер общей памяти / SM | 64 КБ | Настраивается до 96 КБ | Настраивается до 164 КБ |
Сравнение матрицы поддержки точности [12] [13]
Поддерживаемые точности CUDA Core | Поддерживаемая точность тензорного ядра | |||||||||||||||
FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | FP16 | FP32 | FP64 | INT1 (двоичный) | INT4 | INT8 | TF32 | bfloat16 (BF16) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Тесла P4 | Нет | да | да | Нет | Нет | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA P100 | да | да | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Volta | да | да | да | Нет | Нет | да | Нет | Нет | да | Нет | Нет | Нет | Нет | Нет | Нет | Нет |
NVIDIA Тьюринг | да | да | да | Нет | Нет | да | Нет | Нет | да | Нет | Нет | да | да | да | Нет | Нет |
NVIDIA A100 | да | да | да | Нет | Нет | да | Нет | да | да | Нет | да | да | да | да | да | да |
Сравнение производительности декодирования
Параллельные потоки | Декодирование H.264 (1080p30) | Декодирование H.265 (HEVC) (1080p30) | Декодирование VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
Ускоритель A100 и DGX A100 [ править ]
14 мая 2020 года был анонсирован и выпущен ускоритель A100 на базе Ampere. [9] A100 имеет 19,5 терафлопс производительности FP32, 6912 ядер CUDA, 40 ГБ графической памяти и 1,6 ТБ / с пропускной способности графической памяти. [14] Ускоритель A100 изначально был доступен только в 3-м поколении серверов DGX , включая 8 A100. [9] В DGX A100 также входит 15 ТБ хранилища PCIe Gen 4 NVMe , [14] два 64-ядерных процессора AMD Rome 7742, 1 ТБ ОЗУ и межсоединение HDR InfiniBand с питанием от Mellanox . Первоначальная цена DGX A100 составляла 199 000 долларов. [9]
Сравнение ускорителей, используемых в DGX: [9] [15]
Ускоритель |
---|
A100 80 ГБ |
A100 |
V100 |
P100 |
Архитектура | Ядра CUDA FP32 | Ядра FP64 (без Tensor) | Ядра INT32 | Boost Clock | Часы памяти | Ширина шины памяти | Пропускная способность памяти | VRAM | Одинарная точность | Двойная точность (FP64) | INT8 (не тензорный) | INT8 Тензор | INT32 | FP16 | FP16 Тензор | bfloat16 Тензор | TensorFloat-32 (TF32) Тензор | FP64 Тензор | Соединить | GPU | Размер кэша L1 | Размер кэша L2 | Размер кристалла графического процессора | Количество транзисторов | TDP | Производственный процесс |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Ампер | 6912 | 3456 | 6912 | 1410 МГц | 3,2 Гбит / с HBM2 | 5120-бит | 2039 ГБ / сек | 80 ГБ | 19,5 терафлопс | 9.7 терафлопс | N / A | 624 ТОПов | 19,5 ТОПов | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ / сек | GA100 | 20736 КБ (192 КБx108) | 40960 КБ | 826 мм2 | 54,2B | 400 Вт | TSMC 7 нм N7 |
Ампер | 6912 | 3456 | 6912 | 1410 МГц | 2,4 Гбит / с HBM2 | 5120-бит | 1555 ГБ / сек | 40 ГБ | 19,5 терафлопс | 9.7 терафлопс | N / A | 624 ТОПов | 19,5 ТОПов | 78 терафлопс | 312 терафлопс | 312 терафлопс | 156 терафлопс | 19,5 терафлопс | 600 ГБ / сек | GA100 | 20736 КБ (192 КБx108) | 40960 КБ | 826 мм2 | 54,2B | 400 Вт | TSMC 7 нм N7 |
Вольта | 5120 | 2560 | 5120 | 1530 МГц | 1,75 Гбит / с HBM2 | 4096 бит | 900 ГБ / сек | 16 ГБ / 32 ГБ | 15.7 терафлопс | 7,8 терафлопс | 62 ТОП | N / A | 15.7 ТОПы | 31,4 терафлопс | 125 терафлопс | N / A | N / A | N / A | 300 ГБ / сек | GV100 | 10240 КБ (128 КБ x 80) | 6144 КБ | 815 мм2 | 21,1B | 300 Вт / 350 Вт | TSMC 12 нм FFN |
Паскаль | 3584 | 1792 | N / A | 1480 МГц | 1,4 Гбит / с HBM2 | 4096 бит | 720 ГБ / сек | 16 ГИГАБАЙТ | 10.6 терафлопс | 5.3 TFLOP | N / A | N / A | N / A | 21.2 терафлопс | N / A | N / A | N / A | N / A | 160 ГБ / сек | GP100 | 1344 КБ (24 КБ x 56) | 4096 КБ | 610 мм2 | 15.3B | 300 Вт | TSMC 16 нм FinFET + |
Продукты с использованием Ampere [ править ]
- GeForce 30 серии
- GeForce RTX 3050 Ti (GA108)
- GeForce RTX 3050 (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3090 (GA102)
- Графические процессоры Nvidia Workstation (ранее Quadro)
- RTX A2000 (мобильный) (GA10?)
- RTX A3000 (мобильный) (GA104)
- RTX A4000 (мобильный) (GA104)
- RTX A5000 (мобильный) (GA104)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
- Графические процессоры Nvidia Data Center (ранее Tesla)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 ГБ (GA100)
См. Также [ править ]
- Список графических процессоров Nvidia
- Nvidia NVENC
- Nvidia NVDEC
Ссылки [ править ]
- ^ Отдел новостей, NVIDIA. «Новый графический процессор NVIDIA Ampere Data Center в полном объеме» . Отдел новостей NVIDIA Newsroom .
- ^ "Архитектура NVIDIA Ampere в деталях" . Блог разработчиков NVIDIA . 14 мая 2020.
- ^ Отдел новостей, NVIDIA. «NVIDIA делает величайший скачок в истории с графическими процессорами серии GeForce RTX 30» . Отдел новостей NVIDIA Newsroom .
- ^ «NVIDIA GeForce Ultimate Countdown» . NVIDIA .
- ^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
- ^ https://www.nvidia.com/en-us/geforce/special-event/
- ^ «I.7. Вычислительные возможности 8.x» . docs.nvidia.com . Проверено 23 сентября 2020 года .
- ^ Б., Доминик. «Старая 8-нанометровая технология Samsung в основе чудовищных карт NVIDIA Ampere» . SamMobile . Проверено 19 сентября 2020 года .
- ^ a b c d e f Смит, Райан (14 мая 2020 г.). «NVIDIA Ampere Unleashed: NVIDIA анонсирует новую архитектуру графического процессора, графический процессор A100 и ускоритель» . AnandTech.
- ^ «Графические процессоры серии GeForce RTX 30: открывая новую эру видеоконтента с декодированием AV1» . NVIDIA .
- ^ "NVIDIA A100 Tensor Core GPU Architecture" (PDF) . www.nvidia.com . Проверено 18 сентября 2020 года .
- ^ «Тензорные ядра NVIDIA: универсальность для высокопроизводительных вычислений и искусственного интеллекта» . NVIDIA .
- ^ «Аннотация» . docs.nvidia.com .
- ^ a b Том Уоррен; Джеймс Винсент (14 мая 2020 г.). «Первый графический процессор Ampere от Nvidia предназначен для центров обработки данных и искусственного интеллекта, а не для вашего ПК» . Грань.
- ^ «Тестирование NVIDIA Tesla V100: почти невероятная мощность графического процессора» . Твиктаун . 17 сентября 2017 года.
Внешние ссылки [ править ]
- Технический документ по архитектуре графического процессора NVIDIA A100 с тензорными ядрами
- Технический документ по архитектуре графического процессора Nvidia Ampere GA102
- Архитектура Nvidia Ampere
- Графический процессор Nvidia A100 с тензорным ядром
- Подробное описание архитектуры NVIDIA Ampere