4倍3090Ti性能所言不虚?RTX 4090显卡游民首测

时间:2024-02-26 21:51:03
4倍3090Ti性能所言不虚?RTX 4090显卡游民首测

随着2022年9月15日以太坊主网升级至2.0,由工作量证明(POW)正式转为权益证明(POS),标志着自2020年开始,持续将近两年的显卡挖矿热潮正式告一段落。这段本应该是GeForce RTX 30系显卡大显身手的时间,却因为矿工们大包大揽的收购,使价格涨到令游戏玩家们难以承受的地步,严重时甚至一卡难求。如今尘埃落定,RTX 30系显卡纷纷跌破首发价格,属于它们的时代却一去不返——因为玩家们心心念念,翘首以盼的GeForce RTX 40系显卡现在正式登场了。


NVIDIA自2018年推出基于Turing架构的GeForce RTX 20系显卡开始,在PC游戏、专业图形应用和深度学习方面取得重大进展。它通过芯片设计的革新,用传统的光栅化+光线追踪+人工智能优化的方式,首次实现了“实时光线追踪”——将这一原本只能用于CG制作的拟真图形技术,应用在需要实时渲染的游戏中,并获得可观的流畅度。


两年后NVIDIA再接再厉,Ampere架构融合了更强大的RT单元和Tensor单元,以及一种新颖的SM结构,提供两倍的FP32性能,可视作得到了两倍的CUDA单元。再结合趋于完善的DLSS2.0,使其帧数表现最高可达到Turing的两倍。RTX 3070的性能即可与Turing旗舰RTX 2080Ti媲美,如果不是因为挖矿的原因,它本应成就一段佳话。

长江后浪推前浪,如今我们不必再为Ampere感到惋惜,更强的GPU已经到来,且不仅仅是芯片制程的进步和计算单元的扩充,还伴随着新技术的加入和旧技术的完善。全新的GeForce RTX 40系GPU以数学家Ada Loverace命名(简称Ada架构),升级的RT单元和Tensor单元让游戏能够以较快的速度全面采用光线追踪做实时渲染,之前那样采用光栅化+光追的渲染方式不再是必须的,为游戏开发者创造了更广阔的挥洒空间。


一周之前,游民星空硬件评测室收到了NVIDIA GeForce RTX 4090 FE版显卡,本文我们将为玩家阐述它的规格参数,考察新功能特性,最后献上游戏实测对比。

关于这款新旗舰,需要玩家先了解这四个方面的重点:

1.革新的架构规格

2.Ada架构的光追单元和光追性能

3.着色器指令重新排序

4.DLSS3

革新的架构规格

还是老规矩,我们先从架构规格说起,这也是大多数玩家最关心的部分。

像往常一样,NVIDIA Ada架构的旗舰游戏芯片代号为AD102,采用台积电为NVIDIA定制的TSMC 4N工艺,据说制程为 4nm,集成了763亿晶体管,是上代GA102的2.7倍,但核心面积却缩小了,将控制基本控制在上代旗舰的范围内,功耗性能比也成倍提升。

完整的AD102由12个GPC构成,每个GPC包含6个TPC,共72个TPC。每个TPC又有两组SM,一共有144个SM。显存控制器内建12个32bit端口,显存位宽一共384bit。


完整的AD102核心


AD102的GPC

Ada总体上延续了上一代Ampere的结构设计,从SM到GPC,各个组成单位的规格基本一致。

每个SM里包含64个FP32单元和64个FP32/INT32单元,可视作共有128个FP32单元。32位浮点运算是进行着色渲染时的主要动作,即CUDA的主要功能,因而每个SM算128个CUDA,完整的AD102共有18432个CUDA(流处理器)。

纹理单元、RT单元、Tensor单元这些配置数量也都跟上一代SM相同,每个SM分别有4个纹理单元、1个RT单元、4个Tensor单元。完整的AD102共有576个纹理单元、144个RT单元、576个Tensor单元。

每个GPC配置两组ROPs,每组8个,完整的AD102共有192个ROPs。


AD102的SM簇

第一个重点来了,RTX 4090并非采用满血的AD102芯片,而是关闭了8组TPC,下图可以看到,相应的CUDA、纹理单元、RT、Tensor以及ROPs都有所减少。


RTX 4090的AD102-300芯片实物特写


RTX 4090的GPU规格构成AD102-300

RTX 4090具体规格如下表:


简单一算就可得知,RTX 4090的AD102-300满血度大约为88%左右,这要比RTX 3090小得多,后者只关了一组TPC,满血度达到97%。凭借制程提升一倍的TSMC 4N工艺,RTX 4090的基础核心频率就突破了2000MHz,boost更是高达2520MHz。这还是FE版本的设定,AIC的非公版应该还有一定的提升空间。

竞争对手AMD的尚不能匹敌GeForce 30系,NVIDIA十分游刃有余,为未来可能存在的更高阶旗舰(RTX 4090Ti、TITAN?)留下很大的想象空间。可以肯定的是,它的性能提升不会像RTX 3090Ti比3090那样聊胜于无。

另有一种说法是NVIDIA原本将RTX 4090的TGP设定为600W,或许考虑到风冷难以承受,会极大增加AIC的设计难度,故而保留在上代门槛450W以内。这样但凡能支持RTX 3090Ti的PC,可以不顾虑电源直接使用RTX 4090。

显存方面,RTX 4090采用的型号、频率、位宽与RTX 3090Ti完全一样。

Ada架构光追性能与RT单元的提升

要知晓Ada架构光追性能的提升,要从RT单元的升级讲起。

传统的SM簇中流处理器并非不能进行光追计算,但是会消耗大量的算力资源,阻碍顶点着色、纹理填充等传统计算工作,拖慢即时帧的生成。光追计算的主要工作,其实就是层次包围体积的计算,简称BVH,它是一种碰撞检测算法,用于模拟光的轨迹。

Turing和Ampere架构中,RT单元能够将BVH交由矩形相交引擎加速,而光线三角形相交则由三角形相交引擎加速。有这个RT单元专司其职,使流处理器能够不受干扰的进行它的常规工作,保障了帧生成的速度。


在Ada架构的第三代光追单元中,除了上述两个引擎以外,新增加了“不透明度微遮盖引擎”(OME)和“微网格位移引擎”(DM-ME)。


这两个引擎将光追计算中常遇到的操作做进一步的分工处理,提高整体的效率。如下图所示,OME引擎能够以区块划分哪些像素是遮挡光线的,哪些应该半遮挡的,哪些是透明的。将其分区块统一处理,不像原来那样需要逐个扫描识别,节省了着色器的资源。


而DM-ME则相当于在光追中应用的曲面细分,它通过BVH构建碰撞体积的模型,在以往的第二代RT核心计算中需要顶点几何渲染的介入加上BVH构建出最终成型的光线碰撞路径。



而在Ada架构的第三代RT核心中,有了DM-ME引擎,可以通过矢量位移的固定算法根据单一BVH自动生成最终的光线碰撞模型,从而进一步节省了资源,提高了光追的效率。

着色器执行重排序

早期的RT单元不足以确保光追的高帧速率,是因为RT工作负载可能受到许多因素的限制。特别是在执行多重反弹、随机路径跟踪算法或评估复杂材质时。

典型分歧有两种形式:执行分歧——即不同的线程在着色器内执行不同的着色器或代码路径;数据分歧——即线程访问难以合并或缓存的内存资源。在许多光线跟踪场景中,这两种发散都会自然发生。

Ada架构的一项新技术,旨在通过解决发散问题来提高RT单元执行的效率,称之为着色器执行重新排序(SER),这是一种新的调度系统,可以动态重新排序着色工作,以获得更好的执行和数据位置。


简单的来说,我们可以理解为光追计算中,同一帧画面有许多长度不同的指令,交给各个着色器来执行。这些指令运行速度必然有快慢之分,而一帧画面的生成必须等到该画面所需的指令执行完,这时候如果如果能够将它们按照所需时间统筹安排起来,提到着色器的利用率,避免相互等待的情况,尽量令其同步执行完毕,那么将显著提升帧生成的效率。


Ada架构最大的重头戏:DLSS3与光流加速

在过去四年中,NVIDIA应用深度学习研究团队一直在开发一种帧生成技术,该技术将光流估计与DLSS相结合,以改善游戏体验。在现有帧之间插入精确的合成帧可以提高帧速率,并提供更流畅的游戏体验。

光流估计通常用于计算机视觉应用,以测量连续渲染的图形帧或视频帧之间像素的视运动方向和大小。在3D图形和视频领域,典型的用例包括减少增强和虚拟现实中的延迟、提高视频播放的平滑度、提高视频压缩效率以及实现摄像机稳定。深度学习的用途通常包括汽车和机器人导航、视频分析。

与DLSS2相比Ada架构中的Tenors可以提供FP8的四分之一精度计算,为光流计算提供了硬件基础,在具体游戏应用中,该功能称之为Frame Generation。在支持DLSS3的游戏中,以后我们可以常看到这个子选项,你可以将它简单理解为“补帧”。

事实上补帧技术并不新鲜,它早就应用在各个图像、视频制作领域,但是当运用到即时渲染的游戏中时,它会遇到一些光影逻辑的问题。


比如上图,画面中的各个建模的动量不同,游戏引擎的矢量和实际画面运动的矢量并不完全一致——人物、摩托车和影子的矢量很小,而路面和街景在运动。

这时候就需要将游戏引擎中的矢量,与光影运动的矢量结合在一起,计算出最精确的像素位移,从而才能准确预测到下一帧画面各像素应该在的位置。后面这部分工作就必须由Ada架构的光流加速功能来完成。

DLSS原本的超级分辨率技术能以1080p的初始渲染量结合矢量、时间等多维度采样,由AI判断生成一个几乎看不出失真的4K分辨率画面。在DLSS3中,通过光流加速推断下一帧生成的目标画面,这样意味着只需一次1080p的实际渲染,可产生2个4K帧,实际渲染像素量只有显示数量的八分之一。


通过这项技术,Ada架构可以极大节省传统CUDA算力,在应对高分辨率实时渲染的游戏时变得更加游刃有余。DLSS3由于Frame Generation的加入,它的理论帧数性能能达到原先DLSS2的双倍。这意味着GeForce 40系显卡能毫无压力的以4K分辨率高画质运行所有支持DLSS3的游戏,同时8K也进入了流畅体验的范畴。


另方面,DLSS3实际上是将光学多帧生成技术(插帧技术)、超级分辨率(DLSS 2的关键创新)和NVIDIA Reflex这三项整合在了一起。开发者只需整合DLSS 3,即可默认支持DLSS 2。加上Ada架构在CUDA计算规模和光追性能本身的提升,理论帧率提升能达到4倍之多,这在显卡发展历史上都是极为罕见的,使全景光线追踪游戏成为现实,并使玩家有机会享受全模拟仿真世界。



DLSS 3得到了许多全球领先的游戏开发者和游戏引擎的支持,过35款游戏和应用宣布即将支持该技术,首批游戏和应用将于10月推出。

GeForce RTX 4090 FE版实物鉴赏

GeForce RTX 4090 FE的外观结构沿用GeForce RTX 30系的设计风格,外形尺寸与GeForce RTX 3090基本一致。正反安装了两枚11.5cm直径的轴流式风扇,叶尖封环,提高风压的同时降低切风噪音,该风扇一经亮相便引领了业界设计风潮,但对动平衡和品控要求不低。





RTX 4090 FE版的PCB继续沿用上一代的燕尾设计,将后部形成巨大的通透空间,使风扇气流能够充分穿越散热鳍片,带走热量。FE版的PCB采用20+3相供电设计,可以看到核心与显存供电都还留有扩容的空间,或许是为未来更高阶的型号流出余量。


散热器本体特写


GeForce RTX 4090 GPU-Z截图

测试平台软硬件配置介绍

关于Ada架构与RTX 4090显卡的技术介绍到此完结,下面进入实测环节。本次测试采用当前游戏性能第一梯队的Intel Core i9 12900KS处理器与Z690主板组成消费级旗舰平台,期待能充分展现RTX 4090显卡的性能。

除了RTX 4090之外,我们还按惯例加入了NVIDIA Ampere GPU显卡RTX 3090Ti与RTX 3090用作对比。后两者一个是上代旗舰,另一个是与RTX 4090型号对应的准旗舰,以便对RTX 4090的性能地位获得清晰的认知。

测试平台软硬件配置如下:


首先我们将通过支持DLSS3的3DMARK Beta内测版检验这项技术的理论数据表现。同时我们还获得了《赛博2077》、《F1 22》、《逆水寒》、《瘟疫传说》这四款游戏的DLSS3内测资格,可以在游戏正式更新出DLSS3功能之前,抢先用GeForce RTX 4090显卡测试光流加速补帧的效能。

需要注意的是,尽管DLSS3向下兼容DLSS2,但可能是因为抢先测试版的缘故,经过尝试发现以上四款游戏对GeForce 30系显卡的DLSS支持存在一些异常,故我们只用它们对GeForce RTX 4090显卡做DLSS3不同设置的性能考察。测试结果不代表游戏正式版的支持效果,仅供参考。


测试使用的主板是由微星提供的MEG Z690 ACE,这是一款准旗舰型号,拥有强悍的CPU供电系统与丰富的I/O接口功能。双2.5G有线网卡,无限网卡支持WIFI6E,支持雷电4标准的双Type-C接口,并分出两个MiniDP。


测试用显示器使用32寸的微星MPG321UR-QD,标准分辨率4K,最大刷新率144Hz并且支持G-SYNC Compatible,它的三种接口DP1.4a、HDMI2.1和USB Type-C均支持4K 144Hz,是一款性价比较为出众的4K游戏显示器。


CPU散热器采用NZXT的Z73 360mm液冷,确保CPU不会过热导致性能下降。


NZXT C1000 Gold电源,额定功率1000W,80plus金牌标准,可有力支撑12900K处理器与RTX 4090显卡发挥最佳性能。
3DMARK DLSS2/3对比测试

内部测试板的3DMARK首先支持DLSS3,我们可以先用它小试牛刀。


DLSS2 4K分辨率Performance测试,DLSS开启下帧率138.26fps


DLSS3 4K分辨率Performance测试,DLSS开启下帧率172.7fps

4K分辨率下,DLSS3帧率性能提升了25%,而且帧数来到170fps以上,甚至可以合理怀疑是CPU限制了帧数进一步提高。


DLSS3 8K分辨率Performance测试,DLSS开启下帧率41.2fps


DLSS3 8K分辨率Performance测试,DLSS开启下帧率68.25fps

8K分辨率下,性能瓶颈主要集中在了显卡上,DLSS3性能提升十分惊艳,超过了60%,而且平均帧率接近70fps。要知道这是在Performance模式下,而非默认的Ultra Performance,画质得到了相当程度的保障。意味着Ada架构旗舰GeForce RTX 4090显卡凭借DLSS3可使8K分辨率下的玩游戏进入流畅享受的范畴。

《逆水寒》DLSS3对比测试



无论2K还是4K分辨率,性能提升可以用“剧烈”来形容,从原来几乎不能玩变成丝滑畅爽。


2K分辨率DLSS3关闭


2K分辨率DLSS开启性能模式


4K分辨率DLSS3关闭


4K分辨率DLSS3开启性能模式

再看看看大家关心的游戏画质呢,即使开到性能模式,和DLSS关闭几乎没有区别,甚至锐度还略有提升,DLSS3真乃神器。

《瘟疫传说:安魂曲》DLSS3对比测试



《瘟疫传说:安魂曲》打开DLSS3后性能也是爆炸式的提升,仅质量模式就几乎达到两倍。

《F1 22》DLSS3对比测试



2K分辨率下本身帧率已经很高,DLSS3质量模式提升明显,但性能模式进步不大,可能建模速率已到CPU性能上限,4K测试似乎佐证了这一点。


4K分辨率TAA


4K分辨率DLSS3性能,画质几乎没有损失

《赛博朋克2077》DLSS3对比测试



《赛博朋克2077》开启DLSS3模式后替身也十分显著,不过4K分辨率下开启性能模式未能达到NVIDIA官方说明中的100fps以上。但可以肯定的是这个游戏的DLSS3功能还属于内部测试阶段,画面设置和游戏机能还存在不稳定因素。可能需要等到DLSS3版本正式更新后才能见识到其真正威力。


4K分辨率DLSS关闭


4K分辨率DLSS3开启性能模式

如果不标注,上面两副截图你能分得出来吗?

3DMARK基准测试对比



由于参与测试的三款显卡性能高企,为了充分凸出显卡性能差别,本次对比只测试3DMARK中的4K项目和光追项目。

DX11与DX12的测试得分,RTX 4090几乎是RTX 3090的两倍了,如果再算上DLSS3插帧技术的理论提升,看来所谓4倍在某种意义上是成立的。



光追性能测试,尤其是应用程序接口DirectX的直接性能表现,RTX 4090的帧率超过了上一代旗舰的两倍。注意这跟DLSS没有关系,纯粹是光追计算速率的提高。

常规游戏对比:《边境》




常规游戏对比:《地铁:离去》




常规游戏对比:《古墓丽影:暗影》




常规游戏对比:《光明记忆:无限》




常规游戏对比:《杀手3》




常规游戏对比:《神陨》




散热与功耗测试

所有有关性能的测试均告一段落,毫无疑问,Ada架构GeForce RTX 4090显卡无与伦比的表现带给我们巨大冲击,最后我们来看看在如此强悍的性能下散热与功耗又做的如何。本次测试显卡为Founder‘s Edition,而玩家们未来实际购买的显卡大绝多数都是AIC产品,散热是AIC显卡最大的非同质化元素,故以下测试结果仅供参考。’


桌面待机状态

自RTX 30系开始,NVIDIA也在FE版显卡中引入了风扇温控启停这一非常人性化的设计,可以极大降低平时噪音,成倍提升显卡风扇寿命,还能明显减缓灰尘积累的速度。GeForce RTX 4090 FE显卡自然也沿袭了这一功能。

可以看到在TSMC 4N制程加持下,RTX 4090轻载状态功耗与发热控制十分出色,在风扇完全停止时GPU温度竟然低于40℃(室温22℃)。此时全板功耗显示只有9W,与温度完全对得上。不过GPU-Z里并没有显示显存温度,暂时不知是软件识别未完善还是取消了显存温度传感器。


轻载状态下风扇停止


Furmark满载测试20分钟,GPU温度71℃,风扇转速1500rpm左右

从FE版的满载测试可以看出,RTX 4090的温度控制比RTX 3090Ti要更好一点,风扇转速恰好处于1500rpm这个人耳噪音识别的临界点,不会感觉到不适。此时GPU-Z显示全板功耗在450W左右,与NVIDIA官方数据TGP相符。


Frumark满载时全平台功耗536W

考虑Furmark测试时CPU通常只有单核满载,功耗主要来自显卡,按照上图测试结果再往上放出300W的空间,一个800W的电源可以确保稳定支撑一台安装了RTX 4090显卡的PC,NVIDIA官方建议也是如此。


结语:

曾经许多GeForce GTX 10系显卡玩家希望绕过光追体验不够完善的20系,直接入手30系,结果命运给大家开了一个玩笑,尽管30系本身表现不俗,但它却“缺席”了,如今Steam调查玩家手中保有量最大的显卡竟依然是GTX 1060。

因为对“矿卡”的忌惮,RTX 40系显卡提前进入玩家们期待的视野,经过近两年的煎熬之后,携DLSS3这柄利剑而来的GeForce RTX 4090用令人震撼的表现向玩家证明等待是值得的。TSMC 4N制程的Ada架构和进一步改进的RT单元将其扩充出双倍于上一代的能量,DLSS3锦上添花,利用光流计算动态插帧这一天才构想是其理论上凭空生成双倍的帧率,也难怪NVIDIA官方会大胆宣称Ada将具有四倍于Ampere的性能。

我们有理由相信,在GeForce RTX 40系这一代产品中,性能再也不是4K分辨率游戏的壁垒,本次常规游戏测试中我们保守的选择了DLSS质量模式,而且还未更新到DLSS3,许多游戏已经在4K下达到100fps以上的畅爽程度。NVIDIA AI算法的不断进步让画质损失越来越小,事实上DLSS性能跟质量模式的画质已经几乎看不出区别,或许以后我们的测试中将改变DLSS级别标准,为用户充分展示DLSS 3带来的超凡体验。

最后值得一提的是,NVIDIA将限量推出GeForce RTX 4090 FE版,官方指导价12999元,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。

《4倍3090Ti性能所言不虚?RTX 4090显卡游民首测.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式