受 GF100 晶片良率欠佳影响, NVIDIA DX11 产品推出时程严重延宕,不仅晶片成本高昂,更重要的是良率偏低令 GF100 无法完全发挥 512 CUDA Cores 威力。终于全新效能级绘图晶片 GF104 正式登场,在简化架构后不仅良率大幅上升、成本下降,而且在整体效能上相较採用高阶 GF100 绘图核心的 GeForce GTX 465 更优胜,定价仅 $199-229 美元的 GeForce GTX 460 绘图卡,能否为 NVIDIA 一洗颓风成为板卡业者焦点所在。
New Class of Fermi --- NVIDIA GF104 GPU
为了在 DX11 领域上完全超越对手, NVIDIA 对代号为「 Fermi 」微架构家族的 GF100 绘图核心充满其望,不是只为满足 Microsoft DirectX 11 规格而生,同时亦预期未来游戏将会大量採用 Tessellation ( 镂嵌 ) 、 Order-Independent Transparency ( 独立透明效果 ) 、 Fluid Simulations ( 流体模拟 ) 及 Ray-Tracing ( 光线追蹤 ) , NVIDIA 在「 Fermi 」微架构上作出了重大改良,再加上 NVIDIA 决心在 DirectCompute 领域上,进一步抛离对手 AMD ,「 Fermi 」加入全新 CUDA 4.0 技术,亦成为了大幅度的架构改良,再加上要塞进 512 个 CUDA Cores ,无论是对绘图架构研发工程以至生产制程,均是一项重大挑战。
结果, GF100 不仅因架构複杂令成本高昂,同时生产制程所限不仅良率未符合预期,导致产品推出时程一直延宕,最后只能把屏敝部份 CUDA Core 以提升产品良率,採用 GF100 绘图核心的 GeForce GTX 480 、 GeForce GTX 470 及 GeForce GTX 465 ,其 CUDA Cores 数目分别为 480 、 448 及 352 ,可惜,效能与预期出现严重差距,令 NVIDIA 不仅在时程上无法领先对手,同时亦因 DirectX 11 游戏尚未普及,针对 DirectX 11 而生的 GF100 无法在旧有游戏性能上表现压倒性的优势,并且性价比亦没有明显优势,不足以力压对手 AMD Radeon HD 5800 家族。
NVIDIA GF100 绘图核心 Chip Shot
GeForce GTX 470
GeForce GTX 465
GPCs443SMs per GPC151411CUDA Cores480448352Texture Uints605644ROP Units484032Graphics Clock700MHz607MHz607MHzProcessor Clock1401 MHz1215 MHz1215 MHzTotal Memory1536MB1280MB1024MBMemory Interface384Bit320Bit256BitMemory Clock3696MHz3348MHz3206MHzThermal Design Power (TDP)250W215W200W
为了扭转劣势, NVIDIA 于 12 日正式发布全新效能级 GF104 绘图核心,有别于 GF100 绘图核心的设计是以效能作为优先考虑,全新 GF104 以性价比作为设计最终目的,由于游戏厂商尚未有大幅採用 Tessellation ( 镂嵌 ) ,因此 GF104 把 PolyMorph Engines 数目减半至只有 8 个,但 CUDA Core 核心、 ROP 及 Texture 数目却非减半,令 GF104 效能及成本更切合现阶段游戏市场需要。
NVIDIA GF100 架构图
GF104 : 48 CUDA Cores per SM
NVIDIA GF104 与 GF100 同样是基于全新 Fermi 第三代 Streaming Multiprocessor (SM) 架构,它大幅更改了其硬体结构,目标是将游戏性能和图像质量得到极大提升,强化 Geometry Units 以提升游戏人物及物件有如电影般的真实感,其中 Geometric Realism 技术更是 Fermi 微架构的重点强化重心,不仅在 CUDA 运算核心数目上相较上代 GT200 大幅增加,更重要的是 Geometry Pipeline 运算设计上大幅改组,以提升 Geometry Shading 、 Stream Out 及 Culling 的运算能力,同时 ROP 运算单元数目亦倍数提升,令 Fillrate 效能大幅提升,同时亦令 Multi-Display 模式下运算效能不会大幅下降。
全新架构下, ROP Compression 令 8xMASS 效能得到了重大改善,而且新增的 ROP 数目亦是经过了精心的考量,就算在不在使用 ROP Compression 的游戏场境下, ROP Unit 亦不会成为 GPU 的效能瓶颈,拖垮整体游戏效能。
NVIDIA GF104 绘图核心
NVIDIA GF104 绘图核心同样基于可扩充展的绘图运算列阵架构 (Graphics Processing Clusters ; GPC) ,核心拥有 2 组 GPC Unit ,但相较 GF100 绘图核心拥有 4 组 GPC Unit 数目减半,不过 GF104 绘图核心的 GPC Unit 设计与 GF100 绘图核心并不相同。
一颗完整的 GF100 绘图核心具有四组 GPC ,每组 GPC 具有 4 个 Streaming Multiprocessors (SM) ,每组 SM 共有 32 个 CUDA 运算核心,合共 512 个 CUDA 运算核心。 GF104 绘图核心设计并非单纯把 GF100 切半,两组 GPC 设计同样具备 4 个 Streaming Multiprocessors (SM) ,不过每组 SM 内的 CUDA 运算核心数目却提升至 48 个,合共拥有 384 个 CUDA 运算核心。
GF104 的 SM 设计除了 CUDA 数目提升外,其平衡运算流程并没有太大差别,单一週期最高支援 48 warps ,每个 CUDA 运算核心均为 Unified Processor 架构,可执行 Vertex 、 Pixel 、 Geometry 及 Compute Kernels ,为了能更有效地填充数目繁多的 CUDA 运算核心,核心同样採用 GigaThread Engine 架构 , GF104 会读取 CPU 的记忆体指令,并进行分支预测把指定的数据先从系统记忆体中读複製到绘图记忆体内。
NVIDIA GF100 GPUNVIDIA GF104 GPUGPCs42SMs per GPC168CUDA Cores512384Cores Per SM3248Memory Controller64Memory Interface384Bit256BitTotal Texture Units6464Total ROP Units4832