Дата выхода | Ноябрь 2006 г. |
---|---|
Процесс изготовления | 90 нм, 80 нм, 65 нм, 55 нм и 40 нм |
История | |
Предшественник | Кюри |
Преемник | Ферми |
Tesla - это кодовое название микроархитектуры графического процессора, разработанной Nvidia и выпущенной в 2006 году в качестве преемника микроархитектуры Кюри . Он был назван в честь первого инженера-электрика Николы Тесла . Как первая микроархитектура Nvidia для реализации унифицированных шейдеров, она использовалась с графическими процессорами серий GeForce 8 , GeForce 9 , GeForce 100 , GeForce 200 и GeForce 300, совместно производимых на 90 нм, 80 нм, 65 нм, 55 нм, и 40 нм. Так же было в GeForce 405 и Quadro.Вычислительные модули FX, Quadro x000, Quadro NVS и Nvidia Tesla .
Tesla заменила старые микроархитектуры с фиксированным конвейером , представленные на момент выпуска серией GeForce 7 . Он напрямую конкурировал с первой унифицированной шейдерной микроархитектурой AMD под названием TeraScale , разработкой ATI для Xbox 360, в которой использовалась аналогичная конструкция. За Теслой последовал Ферми .
Обзор [ править ]
Tesla - первая микроархитектура Nvidia, реализующая унифицированную шейдерную модель . Драйвер поддерживает архитектуру Direct3D 10 Shader Model 4.0 / OpenGL 2.1 (более поздние драйверы поддерживают OpenGL 3.3). Этот дизайн представляет собой серьезный сдвиг для NVIDIA в функциональности и возможностях графического процессора, наиболее очевидным изменением является переход от отдельных функциональных блоков (пиксельные шейдеры, вершинные шейдеры) в предыдущих графических процессорах к однородному набору универсальных процессоров с плавающей запятой (так называемых «потоковых процессорах»). "), который может выполнять более универсальный набор задач.
Унифицированная шейдерная архитектура GeForce 8 состоит из нескольких потоковых процессоров (SP). В отличие от подхода к векторной обработке, применяемого в старых шейдерных модулях, каждый SP является скалярным и, следовательно, может работать только с одним компонентом за раз. Это делает их менее сложными в сборке, но при этом остается довольно гибкими и универсальными. Скалярные шейдерные блоки также имеют то преимущество, что в ряде случаев они более эффективны по сравнению с вектором предыдущего поколения.шейдерные блоки, которые полагаются на идеальное сочетание инструкций и упорядочение для достижения максимальной пропускной способности. Более низкая максимальная пропускная способность этих скалярных процессоров компенсируется эффективностью и работой их с высокой тактовой частотой (что стало возможным благодаря их простоте). GeForce 8 запускает различные части своего ядра с разными тактовыми частотами (тактовыми доменами), аналогично работе предыдущих графических процессоров серии GeForce 7 . Например, потоковые процессоры GeForce 8800 GTX работают с тактовой частотой 1,35 ГГц, а остальная часть чипа работает с частотой 575 МГц. [1]
GeForce 8 выполняет значительно лучшую фильтрацию текстур, чем его предшественники, которые использовали различные оптимизации и визуальные приемы для ускорения рендеринга без ухудшения качества фильтрации. Линия GeForce 8 правильно отображает алгоритм анизотропной фильтрации, не зависящий от угла, наряду с полной трилинейной фильтрацией текстур . G80, хотя и не его меньшие собратья, обладает гораздо большей арифметической способностью к фильтрации текстур, чем серия GeForce 7. Это обеспечивает высококачественную фильтрацию с гораздо меньшим падением производительности, чем раньше. [1]
NVIDIA также представила новые методы сглаживания краев полигонов , в том числе способность блоков ROP графического процессора одновременно выполнять как мультисэмпловое сглаживание (MSAA), так и освещение HDR, исправляя различные ограничения предыдущих поколений. GeForce 8 может выполнять MSAA с форматами текстур как FP16, так и FP32. GeForce 8 поддерживает 128-битный HDR-рендеринг , в отличие от 64-битной поддержки предыдущих карт. Новая технология сглаживания чипа, называемая AA выборки покрытия (CSAA), использует информацию о Z, цвете и покрытии для определения окончательного цвета пикселя. Этот метод оптимизации цвета позволяет 16X CSAA выглядеть четким и резким. [2]
Производительность [ править ]
Заявленная теоретическая мощность обработки одинарной точности для карт на базе Tesla, указанная в FLOPS, может быть труднодостижимой в реальных рабочих нагрузках. [3]
В G80 / G90 / GT200 каждый потоковый мультипроцессор (SM) содержит 8 шейдерных процессоров (SP, или Unified Shader, или CUDA Core) и 2 модуля специальных функций (SFU). Каждый SP может выполнять до двух операций с одинарной точностью за такт: 1 умножение и 1 сложение с использованием одной инструкции MAD . Каждый SFU может выполнять до четырех операций за такт: четыре инструкции MUL (умножение). Таким образом, один SM в целом может выполнять 8 MAD (16 операций) и 8 MUL (8 операций) за такт или 24 операции за такт, что (условно говоря) в 3 раза больше количества SP. Следовательно, для расчета теоретической производительности MAD + MUL с двойной выдачей в операциях с плавающей запятой в секунду [ FLOPS sp + sfu , GFLOPS ] видеокарты с подсчетом SP [ n] и частоты шейдера [ f , ГГц] формула: SP FLOPS + sfu = 3 × n × f . [4] [5]
Однако использование производительности с двумя задачами, например MAD + MUL, проблематично:
- Двойная выдача MUL недоступна в графическом режиме на G80 / G90, [6] хотя в GT200 она была значительно улучшена. [7]
- Не все комбинации инструкций, такие как MAD + MUL, могут выполняться параллельно на SP и SFU, потому что SFU довольно специализирован, поскольку он может обрабатывать только определенное подмножество инструкций: 32-битное умножение с плавающей запятой, трансцендентные функции, интерполяция для параметра смешивание, обратный, обратный квадратный корень, синус, косинус и т. д. [8]
- SFU может быть занят в течение многих циклов при выполнении этих инструкций, и в этом случае он недоступен для инструкций MUL с двойной выдачей. [4]
По этим причинам, чтобы оценить производительность реальных рабочих нагрузок, может быть более полезным игнорировать SFU и принимать только 1 MAD (2 операции) на SP за цикл. В этом случае формула для расчета теоретической производительности операций с плавающей запятой в секунду принимает следующий вид: SP FLOPS = 2 × n × f .
Теоретическая мощность обработки с двойной точностью графического процессора Tesla составляет 1/8 от производительности с одинарной точностью на GT200; на G8x и G9x нет поддержки двойной точности. [9]
Распаковка / сжатие видео [ править ]
NVDEC [ править ]
NVENC [ править ]
NVENC был представлен только в более поздних чипах.
Чипсы [ править ]
Tesla 1.0 [ править ]
• 8800 GTX
• 8800 Ultra
Tesla 2.0 [ править ]
- GT200
- GT215
- GT216
- GT218
См. Также [ править ]
- Список графических процессоров Nvidia
- CUDA
- Масштабируемый интерфейс связи (SLI)
- Qualcomm Adreno
Ссылки [ править ]
- ^ a b Wasson, Скотт. Графический процессор NVIDIA GeForce 8800. Архивировано 15 июля 2007 г. в Wayback Machine , Tech Report, 8 ноября 2007 г.
- ^ Sommefeldt, Rys. NVIDIA G80: анализ качества изображения , Beyond3D, 12 декабря 2006 г.
- ^ «Beyond3D - графический процессор NVIDIA GT200 и анализ архитектуры» .
- ^ a b Ананд Лал Шимпи и Дерек Уилсон. «Дерек становится техническим специалистом: возвращение технологии ткацких станков 15-го века - графический процессор NVIDIA на 1,4 миллиарда транзисторов: GT200 представлен как GeForce GTX 280 и 260» .
- ^ Ананд Лал Шимпи и Дерек Уилсон. «G80: Обзор высотой в милю - NVIDIA GeForce 8800 (G80): графические процессоры, переработанные для DirectX 10» .
- ^ Sommefeldt, Rys. NVIDIA G80: анализ архитектуры и графического процессора - стр. 11 , Beyond3D, 8 ноября 2006 г.
- ^ «Краткий технический обзор архитектуры графического процессора NVIDIA GeForce GTX 200» (PDF) . Май 2008. с. 15 . Дата обращения 5 декабря 2015 .
Отдельные ядра потоковой обработки графических процессоров GeForce GTX 200 теперь могут почти на полной скорости выполнять двойные операции умножения-сложения (MAD) и MUL (3 флопа / SP).
- ↑ Кантер, Дэвид (8 сентября 2008 г.). «NVIDIA GT200: внутри параллельного процессора» . Real World Tech . п. 9.
- Рианна Смит, Райан (17 марта 2015 г.). «Обзор NVIDIA GeForce GTX Titan X» . AnandTech . п. 2.
Внешние ссылки [ править ]
Викискладе есть медиафайлы, связанные с серией Nvidia Tesla . |