Тесла (микроархитектура)

Nvidia Tesla
История

Дата выхода	Ноябрь 2006 г.
Процесс изготовления	90 нм, 80 нм, 65 нм, 55 нм и 40 нм
Предшественник	Кюри
Преемник	Ферми

Tesla - это кодовое название микроархитектуры графического процессора, разработанной Nvidia и выпущенной в 2006 году в качестве преемника микроархитектуры Кюри . Он был назван в честь первого инженера-электрика Николы Тесла . Как первая микроархитектура Nvidia для реализации унифицированных шейдеров, она использовалась с графическими процессорами серий GeForce 8 , GeForce 9 , GeForce 100 , GeForce 200 и GeForce 300, совместно производимых на 90 нм, 80 нм, 65 нм, 55 нм, и 40 нм. Так же было в GeForce 405 и Quadro.Вычислительные модули FX, Quadro x000, Quadro NVS и Nvidia Tesla .

Tesla заменила старые микроархитектуры с фиксированным конвейером , представленные на момент выпуска серией GeForce 7 . Он напрямую конкурировал с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale , разработкой ATI для Xbox 360, в которой использовалась аналогичная конструкция. За Теслой последовал Ферми .

Обзор [ править ]

Tesla - первая микроархитектура Nvidia, реализующая унифицированную шейдерную модель . Драйвер поддерживает архитектуру Direct3D 10 Shader Model 4.0 / OpenGL 2.1 (более поздние драйверы поддерживают OpenGL 3.3). Этот дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных процессоров с плавающей запятой (так называемых «потоковых процессорах»). "), который может выполнять более универсальный набор задач.

Графический процессор NVIDIA G80

Снимок графического процессора GT200 внутри карт NVIDIA GeForce GTX 280, основанных на микроархитектуре Tesla

Унифицированная шейдерная архитектура GeForce 8 состоит из нескольких потоковых процессоров (SP). В отличие от подхода к векторной обработке, применяемого в старых шейдерных модулях, каждый SP является скалярным и, следовательно, может работать только с одним компонентом за раз. Это делает их менее сложными в сборке, но при этом остается довольно гибкими и универсальными. Скалярные шейдерные блоки также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с вектором предыдущего поколения.шейдерные блоки, которые полагаются на идеальное сочетание инструкций и упорядочение для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и работой их с высокой тактовой частотой (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра с разными тактовыми частотами (тактовыми доменами), аналогично работе предыдущих графических процессоров серии GeForce 7 . Например, потоковые процессоры GeForce 8800 GTX работают с тактовой частотой 1,35 ГГц, а остальная часть чипа работает с частотой 575 МГц. ^[1]

GeForce 8 выполняет значительно лучшую фильтрацию текстур, чем его предшественники, которые использовали различные оптимизации и визуальные приемы для ускорения рендеринга без ухудшения качества фильтрации. Линия GeForce 8 правильно отображает алгоритм анизотропной фильтрации, не зависящий от угла, наряду с полной трилинейной фильтрацией текстур . G80, хотя и не его меньшие собратья, обладает гораздо большей арифметической способностью к фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим падением производительности, чем раньше. ^[1]

NVIDIA также представила новые методы сглаживания краев полигонов , в том числе способность блоков ROP графического процессора одновременно выполнять как мультисэмпловое сглаживание (MSAA), так и освещение HDR, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур как FP16, так и FP32. GeForce 8 поддерживает 128-битный HDR-рендеринг , в отличие от 64-битной поддержки предыдущих карт. Новая технология сглаживания чипа, называемая AA выборки покрытия (CSAA), использует информацию о Z, цвете и покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким. ^[2]

Производительность [ править ]

Заявленная теоретическая мощность обработки одинарной точности для карт на базе Tesla, указанная в FLOPS, может быть труднодостижимой в реальных рабочих нагрузках. ^[3]

В G80 / G90 / GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или Unified Shader, или CUDA Core) и 2 модуля специальных функций (SFU). Каждый SP может выполнять до двух операций с одинарной точностью за такт: 1 умножение и 1 сложение с использованием одной инструкции MAD . Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (умножение). Таким образом, один SM в целом может выполнять 8 MAD (16 операций) и 8 MUL (8 операций) за такт или 24 операции за такт, что (условно говоря) в 3 раза больше количества SP. Следовательно, для расчета теоретической производительности MAD + MUL с двойной выдачей в операциях с плавающей запятой в секунду [ FLOPS _{sp + sfu} , GFLOPS ] видеокарты с подсчетом SP [ n] и частоты шейдера [ f , ГГц] формула: _SP FLOPS _{+ sfu} = 3 × n × f . ^[4]^[5]

Однако использование производительности с двумя задачами, например MAD + MUL, проблематично:

Двойная выдача MUL недоступна в графическом режиме на G80 / G90, ^[6] хотя в GT200 она была значительно улучшена. ^[7]
Не все комбинации инструкций, такие как MAD + MUL, могут выполняться параллельно на SP и SFU, потому что SFU довольно специализирован, поскольку он может обрабатывать только определенное подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяция для параметра смешивание, обратный, обратный квадратный корень, синус, косинус и т. д. ^[8]
SFU может быть занят в течение многих циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей. ^[4]

По этим причинам, чтобы оценить производительность реальных рабочих нагрузок, может быть более полезным игнорировать SFU и принимать только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду принимает следующий вид: _SP FLOPS = 2 × n × f .

Теоретическая мощность обработки с двойной точностью графического процессора Tesla составляет 1/8 от производительности с одинарной точностью на GT200; на G8x и G9x нет поддержки двойной точности. ^[9]

Распаковка / сжатие видео [ править ]

NVDEC [ править ]

NVENC [ править ]

NVENC был представлен только в более поздних чипах.

Чипсы [ править ]

Tesla 1.0 [ править ]

• 8800 GTX

• 8800 Ultra

Tesla 2.0 [ править ]

GT200
GT215
GT216
GT218

См. Также [ править ]

Список графических процессоров Nvidia
CUDA
Масштабируемый интерфейс связи (SLI)
Qualcomm Adreno

Ссылки [ править ]

^ a b Wasson, Скотт. Графический процессор NVIDIA GeForce 8800. Архивировано 15 июля 2007 г. в Wayback Machine , Tech Report, 8 ноября 2007 г.
^ Sommefeldt, Rys. NVIDIA G80: анализ качества изображения , Beyond3D, 12 декабря 2006 г.
^ «Beyond3D - графический процессор NVIDIA GT200 и анализ архитектуры» .
^ a b Ананд Лал Шимпи и Дерек Уилсон. «Дерек становится техническим специалистом: возвращение технологии ткацких станков 15-го века - графический процессор NVIDIA на 1,4 миллиарда транзисторов: GT200 представлен как GeForce GTX 280 и 260» .
^ Ананд Лал Шимпи и Дерек Уилсон. «G80: Обзор высотой в милю - NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10» .
^ Sommefeldt, Rys. NVIDIA G80: анализ архитектуры и графического процессора - стр. 11 , Beyond3D, 8 ноября 2006 г.
^ «Краткий технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF) . Май 2008. с. 15 . Дата обращения 5 декабря 2015 . Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут почти на полной скорости выполнять двойные операции умножения-сложения (MAD) и MUL (3 флопа / SP).
↑ Кантер, Дэвид (8 сентября 2008 г.). «NVIDIA GT200: внутри параллельного процессора» . Real World Tech . п. 9.
Рианна Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X» . AnandTech . п. 2.

Внешние ссылки [ править ]

Викискладе есть медиафайлы, связанные с серией Nvidia Tesla .

[8800GTXTechReport-1] Wasson, Скотт. Графический процессор NVIDIA GeForce 8800. Архивировано 15 июля 2007 г. в Wayback Machine , Tech Report, 8 ноября 2007 г.

[B3DG80IQ-2] Sommefeldt, Rys. NVIDIA G80: анализ качества изображения , Beyond3D, 12 декабря 2006 г.

[beyond3d_gt200-3] «Beyond3D - графический процессор NVIDIA GT200 и анализ архитектуры» .

[nvidiaanandtechGT200-4] Ананд Лал Шимпи и Дерек Уилсон. «Дерек становится техническим специалистом: возвращение технологии ткацких станков 15-го века - графический процессор NVIDIA на 1,4 миллиарда транзисторов: GT200 представлен как GeForce GTX 280 и 260» .

[nvidiaanandtechG80-5] Ананд Лал Шимпи и Дерек Уилсон. «G80: Обзор высотой в милю - NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10» .

[6] Sommefeldt, Rys. NVIDIA G80: анализ архитектуры и графического процессора - стр. 11 , Beyond3D, 8 ноября 2006 г.

[gt200_tech_brief-7] «Краткий технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF) . Май 2008. с. 15 . Дата обращения 5 декабря 2015 . Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут почти на полной скорости выполнять двойные операции умножения-сложения (MAD) и MUL (3 флопа / SP).

[sp_perf_gt200-8] Кантер, Дэвид (8 сентября 2008 г.). «NVIDIA GT200: внутри параллельного процессора» . Real World Tech . п. 9.

[dp_perf_g80_to_gm200-9] Рианна Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X» . AnandTech . п. 2.