NVIDIA GeForce GTX 980架构分析

导读 NVIDIA 正式发布新一代「 Maxwell 」 GPU 微架构高阶绘图卡「 GeForce GTX 980 」,基于全新「 GM204 」绘图核心採用了经改良


NVIDIA 正式发布新一代「 Maxwell 」 GPU 微架构高阶绘图卡「 GeForce GTX 980 」,基于全新「 GM204 」绘图核心採用了经改良 SMM CUDA 模组设计、升级 PolyMorph Engine 3.0 引擎及进一步优化记忆体架构,令绘图卡性能进一步提升下功耗却大幅下降。此外,「 GM204 」绘图核心加入了硬体 VXGI 立体像素全域照明运算加速,全新的动态超解析度技术及 MFAA 反锯齿技术,令提升了 PC 游戏效果进入全新里程。



全新 「 GM204 」绘图核心

GM204
NVIDIA GM204 绘图核心 Die Shot

今年 2 月, NVIDIA 已发布了首款基于「 Maxwell 」 GPU 微架构的绘图卡绘图晶片、核心代号为「 GM107 」,并推出了定位于主流级及低功耗应用市场「 GeForce GTX 750 」及「 GeForce GTX 750 Ti 」绘图卡,虽然晶片仍然採用 TSMC 28nm 制程,但透过改良 Streaming Multiprocessor 内部设计,提供了优秀的 Performance per Watt 表现,当中「 GeForce GTX 750 Ti 」甚至在部份 DirectX 11 测试中力压「 GeForce GTX 480 」,所需功耗却只有后者的四份之一。

相隔半年后, NVIDIA 正式终于发布新一代「 Maxwell 」 GPU 微架构高阶绘图核心、核心代号为「 GM204 」,它是首颗具备完整的「 Maxwell 」 GPU 微架构产品,相较「 GM107 」绘图核心支援 CUDA Compute 5.0 ,全新「 GM204 」绘图核心已提升至支援 CUDA Compute 5.2 ,同时增了多项绘图技术包括︰ VXGI 立体像素全域照明、 MFAA 多帧取样反锯齿、 DSR 动态超高解析度 、 VR Direct 立体影像技术等,同时在显示输出中追加了 HDMI 2.0 支援,均是「 GM107 」绘图核心所欠奉的。

GM204
NVIDIA GM204 绘图核心 Block Diagram

「 GM204 」绘图核心採用 28nm 制程由 TSMC 代工,内建 52.2 亿个电晶体, Die Size 为 398mm² 拥有 4 组 GPC 图形处理群,每组 GPC 图形处理群内拥有一个独立的 Raster Engine 光栅处理引擎及 4 组 Maxwell Streaming Multiprocessor(SMM) 模组,每一个 SMM 模组内共有 128 个 CUDA Cores 及 8 个 Texture Units ,整颗绘图核心合共有 2048 个 CUDA Cores 及 128 个 Texture units 。

「 GM204 」绘图核心内建 4 组 64Bit 记忆体控制器,每组记忆体控制器紧连着 16 个 ROP 单元及 512KB L2 Cache ,因此整颗绘图核心拥有 256Bit 记忆体介面、 64 个 ROP 单元及 2MB L2 Cache 。

「 GM204 」︰全新 Maxwell SMM 模组

「 Maxwell 」 GPU 微架构延续了上代「 Kelper 」 GPU 微架构的 SMX 模组设计方向,并按照现今游戏对不同类别的数学及 Texture 运算比例,重新设计新一代 Maxwell Streaming Multiprocessor(SMM) 模组,以提升 GPU 的运算效率与功耗性能比表现,同时升级至第三代 PolyMorph Engine 令 Tessellation 运算能力进一步提升。

全新「 Maxwell 」 SMM 模组的 CUDA Core 数目由上代的 192 个减少至 128 个, Texture Unit 亦由 16 个减至 8 个, NVIDIA 认为这个架构更符合现今游戏要求,而且 SMM 模组内各个 CUDA Cores 、 Load/Store 单元及 Special Fucntion 单元,将会被平均分割成 4 个 CUDA Processing 区块,每个区块各自拥有独立的 Instruction Buffer 、 Warp Scheduler 、 Instruction Buffering 、 Dispatch Unit 及 Register File ,令运算效率相较「 Kelper 」的 SMX 模组让 192 个 CUDA Cores 共享更具效率。

相较「 Kepler 」 SMX 模组,「 Maxwell 」 SMM 模组内的缓存结构亦作改动,不再採用 L1 Cache 与 Shared Memory 不再共享,把 Shared Memory 由 L1 Cache 中独立分割出来,同时容量由 64KB 提升至 96KB ,原本的独立的 Texture Cache 与 Uniform Cache 则与 L1 Cache 结合。

SMM
NVIDIA 「 Maxwell 」 SMM 模组内部设计

受惠于「 Maxwell 」 SMM 模组的重新设计,全新「 Maxwell 」 GPU 微架构的 CUDA Cores 运算效率相较上代「 Kepler 」大幅提升 40% ,其功耗性能比提升了 1 倍。如果以 SM 模组层面来说,「 Maxwell 」 SMM 模组仅拥有 128 个 CUDA Cores ,其性能却与 192 个 CUDA Cores 的「 Kepler 」 SMX 模组相约,更节省所需的电晶体数目与功耗需求。

GTX 980GTX TitanGTX 780 TiGTX 780Process28 nm28 nm28 nm28 nmCoreGM204-400-A1GK110-A1GK110-B1GK110-A1Transistors5.2 billion7.1 billion7,1 billion7,1 billionGPU ArchitectureMaxwellKeplerKeplerKeplerCUDA Cores2048268828802304Engine Clock1,126 MHz837 MHz875 MHz863 MHzGPU Boost Clock1,216 MHz876 MHz928 MHz900 MHzSingle Precision (GFLOPS)4,612 GFLOPS4500 GFLOPS5040 GFLOPS3979 GFLOPSDouble Precision (GFLOPS)144 GFLOPS (1/3)*1300 GFLOPS (1/3)*210 GFLOPS (1/24)166 GFLOPS (1/24)Memory Type256-bit384-bit384-bit384-bitMemory Size4 GB GDDR56 GB GDDR53 GB GDDR53 GB GDDR5Memory Date Rate7 012 MHz6 088 MHz7 000 MHz6 008 MHzMemory Bandwidth224 GB/s288 GB/s336 GB/s288 GB/sPower Connectors6+6-pin6+8-pin6+8-pin6+8-pinMonitors Output1 st. DVI2 st. DVI2 st. DVI2 st. DVI1 st. HDMI1 st. HDMI1 st. HDMI1 st. HDMI3 st. DP1 st. DP1 st. DP1 st. DPTDP165 W250 W250 W250W

免责声明:本文由用户上传,如有侵权请联系删除!