NVIDIA 正式发布全新「GeForce RTX 3090」绘图卡,它是针对内容创作者以及追求游戏极端性能的玩家而生,採用全新「GA-102-300」绘图核心,升级新一代 Ampere GPU 微架构、增至 10,496 个 CUDA Cores、第 2 代 RT Cores 及第 3 代 Tesnsor Cores 与 24GB GDDR6X 记忆体,取代旧有 TITAN RTX 沿有地位,HKEPC 找来 ASUS ROG Strix GeForce RTX 3090 绘图卡进行评测。
NVIDIA GeForce RTX 3090 登场
NVIDIA 24 日正式发布第二款基于「Ampere」GPU 微架构,核心代号为「GA102-300」的旗舰级「GeForce RTX 3090」绘图核心,它其实是为内容创作者以及追求巅峰游戏性能而生,其定位是要取代沿有的「TITAN RTX」,为何这代不再使用「TITAN」系列呢 ? 可能 NVIDIA 认为每代都要「TITAN」改一个新名字,太烦了索性不就用「RTX 3090」好了。
对于游戏玩家来说,你必需要认清「GeForce RTX 3090」的游戏性价比相当低,价格是 GeForce RTX 3080 的一倍,但现今的游戏仍然未能发挥它的真实性能,支援原生 8K + Ultra Performance DLSS 的游戏并不多,现令大部份 3A 大作只会比 GeForce RTX 3080 快 10~20%,如果你视钱财如粪土,为追求极致性能不借一切,GeForce RTX 3090 绝对是身份的象徵。
▲ GeForce RTX 3090 FE 绘图卡
如果你是内容创作者,GeForce RTX 3090 将会是一头野兽,因为它做到其他GeForce RTX 30 系列游戏卡所无法做到的事,相信不少创作者遇过因绘图卡记忆体不足导至整个应用程序崩溃的经验,拥有高达 384-bit 记忆体介面与 24GB GDDR6X 记忆体容量,能满足大型模型场景染渲和高解析度纹理贴图的工作负载,加上更多的 CUDA Core、RT Cores 及 Tensor Cores 运算单元,作为内容创作者的搵食工具,这才是GeForce RTX 3090 的真正存在意义。
SAMSUNG 8nm 制程、 GA102-300 绘图核心
NVIDIA GA102 绘图核心基于全新 Ampere GPU 微架构,并用于 GeForce RTX 3080 与 GeForce RTX 3090 产品之中,性能的提升主要来自 FP32 运算单元提升了 1 倍、升级第 2 代 RT Cores、升级第 3 代 Tensor Cores,经改良的 ROP 单元及换上更高速的 GDDR6X 记忆体,与上代 Turing GPU 微架构比较,传统光栅图形运算提高了 1.7 倍,同时在光线追踪性能上提升近 2 倍。
▲ NVIDIA GA-102-300 Block Diagram
「GeForce RTX 3090」採用「GA102-300」绘图核心,採用 8nm NVIDIA Custom 制程、SAMSUNG 代工,拥有 283 亿个电晶体、Die Size 约为 628mm²,一颗完整的 GA102 晶片内建 7 个 GPC 单元、42 个 TPC 纹理处理群集及 84 个 SM 串流多处理器,增至 10,752 个 CUDA Cores、84 个 RT Cores 及 336 个 Tensor Cores。
▲NVIDIA GA102-300-A1 绘图核心
不过,「GeForce RTX 3090」部份单元作出了屏蔽,同样具备 7 个 GPC 单云,但 TPC 纹理处理群集减少 41 个,合共 82 个 SM 串流多处理器,具备 10,496 个 CUDA Cores、82 个 RT Cores 及 328 个 Tensor Cores。
核心时脉方面,虽然晶片规模大幅提升但时脉仍能保持于高水平,GeForce RTX 3090 预设时脉为 1,395MHz Base Clock、1,695 MHz Boost Clock,最高 TDP 为 350W。此外,「GeForce RTX 3090」改用了全新 GDDR6X 记忆体颗粒,虽然记忆体时脉只有1,219MHz,传输速度却高达 19.5Gbps,加上 384 bit 记忆体频宽介面,令总频宽提升 936.2GB/s。
Graphics Card
GeForce RTX 3080
Founders Edition
GeForce RTX 3090
Founders Edition
GeForce TITAN RTX
Founders Edition
GPU Codename
GA102-200
GA102-300
TU102-400
GPU Architecture
NVIDIA Ampere
NVIDIA Ampere
NVIDIA Turing
GPCs
6
7
6
TPCs
34
41
36
SMs
68
82
72
CUDA Cores / SM
128
128
64
CUDA Cores / GPU
8704
10496
4608
Tensor Cores / SM
4 (3rd Gen)
4 (3rd Gen)
8 (2nd Gen)
Tensor Cores / GPU
272 (3rd Gen)
328 (3rd Gen)
576 (2nd Gen)
RT Cores
68 (2nd Gen)
82 (1st Gen)
72 (1st Gen)
GPU Boost Clock (MHz)
1710
1695
1770
Peak FP32 TFLOPS (non-Tensor)1
29.8
35.6
16.3
Peak FP16 TFLOPS (non-Tensor)1
29.8
35.6
32.6
Peak BF16 TFLOPS (non-Tensor)1
29.8
35.6
NA
Peak INT32 TOPS (non-Tensor)1,3
14.9
16.3
17.8
Peak FP16 Tensor TFLOPS
with FP16 Accumulate1
119/238
142/284
130.5
Peak FP16 Tensor TFLOPS with FP32 Accumulate1
59.5/119
71/142
65.2
Peak BF16 Tensor TFLOPS
with FP32 Accumulate1
59.5/119
71/142
NA
Peak TF32 Tensor TFLOPS1
29.8/59.5
35.6/71
NA
Peak INT8 Tensor TOPS1
238/476
284/568
261
Peak INT4 Tensor TOPS1
476/952
568/1136
522
Frame Buffer Memory Size and Type
10240MB GDDR6X
24576MB GDDR6X
24576MB GDDR6
Memory Interface
320-bit
384-bit
384-bit
Memory Clock (Data Rate)
19 Gbps
19.5 Gbps
14 Gbps
Memory Bandwidth
760 GB/sec
936 GB/sec
672 GB/sec
ROPs
96
112
96
Pixel Fill-rate (Gigapixels/sec)
164.2
193
169.9
Texture Units
272
328
288
Texel Fill-rate (Gigatexels/sec)
465
566
509.8
L1 Data Cache/SharedMemory
8704 KB
6912 KB
10496 KB