当前位置: 编码机 >> 编码机市场 >> RTX4090魔鹰性能空前强大,制霸全景
NVIDIA在9月20日正式发布了游戏玩家翘首以盼的GeForceRTXGPU,配备了第四代TensorCores和第三代RTCores,AI性能和光追性能相对上代可提升2~4倍,并支持全新的DLSS3技术,8K分辨率下流畅运行光追游戏大作也是其一大亮点。作为NVIDIA重要合作伙伴,技嘉也在第一时间推出了基于RTXGPU的旗舰显卡产品,而GeForceRTXGAMINGOC24G魔鹰更是率先抵达了我们的测评室。那么RTX为何如此强大?其采用的全新NVIDIAAdaLovelaceGPU架构到底有哪些进化?且看我们全面的解析与测评。
NVIDIAAdaLovelace架构带来革命性进化
AdaLovelace(~)是一位英国数学家、计算机程序创始人,被称为世界上第一位程序员,那么,以她名字命名的NVIDIAAdaLovelaceGPU架构到底带来了怎样的革命性升级呢?
工艺领先,GPU规模与频率全面提升
完整的AdaADGPU包含了12个GPC、共计个CUDA单元、个RTCores(第三代)、个TensorCores(第四代)以及个纹理单元,晶体管数量高达亿个,远远超过了NVIDIAAmpere的亿个。在AdaGPU的1个GPC中,包含了6个TPC、每个TPC包含1个多边形引擎和两个SM单元,每个SM单元包含个CUDA单元、1个第三代RTCore和4个第四代TensorCore。
得益于定制的TSMC4N制造工艺,NVIDIAAdaLovelaceGPU架构规模达到了空前的强大,同时在工作频率方面也有了巨大的提升。以当前RTX40中的旗舰GeForceRTX为例,它包含了11个GPC、共计个CUDA单元、个RTCores(第三代)、个TensorCores(第四代)以及个纹理单元,默认加速频率为MHz,已经远远超过了上代RTXTi的MHz,而在游戏中甚至还能更高。总而言之,规模和频率的全面提升,为NVIDIAAdaLovelaceGPU架构强悍的性能打下了坚实的物理基础。
ShaderExecutingReordering(SER)着色器执行重排序
从NVIDIA官方数据来看,NVIDIAAdaLovelaceGPU架构的着色器数据吞吐量最高可达90TFLOPS(GeForceRTX为83TFLOPS),而上代NVIDIAAmere大约为40TFLOPS,这当然与新一代GPU规模大幅提升不无关系。
不过,除了规模暴增之外,NVIDIAAdaLovelaceGPU架构还有一项进化就是支持ShaderExecutingReordering(SER)着色器执行重排序。我们知道,GPU在完成大量类似工作的时候效率最高,而随着游戏中光追效果越来越复杂,着色器面临的可能就是大量发散的、无序的低效率工作任务,从而影响了渲染效率。SER技术的出现,就可以把这些杂乱的工作任务进行分类,动态重组为更高效的任务,从而提升着色器的执行效率。从NVIDIA官方数据来看,SER技术大约会带来2倍的着色器性能提升,而在《赛博朋克》这样的光追游戏实测中,SER也大约带来了44%的帧率提升。
第三代RTCores
从RTX20到RTX30再到RTX40,RTCores当然也进化到了第三代。简单地从有效光线追踪计算能力来看,NVIDIAAdaLovelaceGPU架构的第三代RTCores吞吐量达到了TFLOPS,是上一代的2.8倍之多。
另外,我们知道NVIDIATuring和AmpereGPU中的RTCore包括了用于加速边界体积层次(BVH)数据结构遍历的加速单元,并执行射线三角形和光线边界框相交测试计算。Ampere的RTCores中,BVH遍历由BoxIntersectionEngine进行加速,射线三角形相交测试由三角形相交引擎进行加速,这已经被证明是迄今为止处理光追工作负载最高效的引擎。而在AdaGPU的第三代RTCores中,除了以上两个功能外,还引入了称为“微映射透明度引擎”(OMM)和“微网格置换引擎”(DMM)。
微映射透明度引擎的作用是优化光纤追踪渲染,大幅降低着色器的工作负载,这对于处理复杂物体光追特性来讲提升是很大的。具体的原理是将光线追踪特性烘焙到不透明的蒙版中,让那些不规则的形状与半透明的对象都能更快更精准地被渲染出来。
微网格置换引擎则可以将面数非常多的复杂图形做简化,创造出更加简单的模型,从而实现用基本三角形渲染复杂几何图形的目的,大大减少了计算量和对显存的占用。从官方数据来看,微网格置换引擎可以让光线追踪的BVH速度最多提升15倍以上,而显存占用最多可降低到原先的1/20,总之就是越复杂的模型,微网格置换引擎的优化效果越突出。
第四代TensorCores
在AdaGPU上,TensorCores已经进化到了第四代,而这次TensorCores的升级尤其重磅。它配备了全新的FP8引擎,张量处理性能高达1.32PetaFlops(相对上代提升了五倍之多)——注意单位是以千万亿计的PetaFlops,而之前我们用的是以万亿计的TFlops。当然,第四代TensorCores最具革命性的进步还得属全新加入的光流加速器(OpticalFlowAccelerator),而它就是NVIDIADLSS3黑科技的核心所在,后面的DLSS3章节会详细介绍。
DLSS3
DLSS技术大家并不陌生,作为RTX系列显卡提升画质与帧率的专用黑科技,到RTX40这一代则直接从之前的2.3版进化到了3.0版,跨度之大证明其改进是革命性的,NVIDIA官方甚至称其代表了“神经网络渲染新时代”。
和之前的DLSS不同,DLSS3在原有的超分辨率功能基础上进一步引入了光学多帧生成技术,简单来说就是可以通过AI计算生成新的帧,而不像之前那样只是生成像素。而这个帧生成的工作,是由在第四代TensorCores中加入的光流加速器来完成,当然这就意味着DLSS3中的“帧生成”功能是RTX40独享的。光流加速器可以在DLSS2的基础上计算两帧之间的光流场,捕捉游戏画面中从第1帧到第2帧之间变化的方向与速度,包含粒子、光线照射、反射等像素信息,通过计算运动矢量和光流来精确重建画面。简单来说,DLSS2做的是通过AI计算出画面上剩余的像素,而DLSS3则在此基础上还能计算出下一帧完整的画面,这样算下来DLSS3等于是完全重建了实际显示画面7/8的像素,也可以说是重建了相当于实际渲染像素7倍的像素。此外,由于DLSS3的“帧生成”在GPU中进行,所以即便是CPU性能出现瓶颈,也能提升游戏帧率。
按照官方数据,DLSS3最多可带来4倍的游戏性能提升,让8K与全景光追游戏成为了现实。DLSS3包含了“光学多帧生成技术”、“超级分辨率”和“NVIDIAReflex”三大部分,开发者只要整合DLSS3,就可默认支持DLSS2。目前DLSS3已经得到了游戏开发者与游戏引擎的支持,超过35款游戏和应用都将支持该技术,首批游戏与应用将在10月内推出。
NVIDIAStudio优化
在生产力方面,NVIDIAGPU必然是设计师们优先考虑的高效工具,而RTX40系列在NVIDIAStudio方面的优化配合NVIDIAStudio驱动也将会为内容创作者们提供更加出色的选择。总的来说,目前RTX可以加速多款主流创意应用,此外,SDK的提供使这些应用更加高效,并提供独家的功能,例如Optix、DLSS和Maxine。NVIDIAStudio还提供了全套创意应用,包括NVIDIAOmniverse、Broadcast、Canvas和RTXRemix。
AV1与AI直播
我们知道AV1相比H.等编码方式可以在同码率下提供更加清晰的视频画面,而且AV1还支持一些更先进的编码特性,例如HDR与低延迟。RTX40的编码器(显存12GB以上的RTX40系列甚至还提供了双NVENC编码器)提供了对AV1硬件编码的支持,而OBS和Discord等推流软件都将在不久之后提供对NVENCAV1的支持,让玩家享受到更加精美而流畅的直播视频画面。解码方面,RTX40的NVENC也继承了RTX30上的第5代硬件解码器,支持MPEG-2、VC-1、H.(AVCHD)、H.(HEVC)、VP8/9以及AV1的硬件解码。AI直播部分,NVIDIA为Broadcast应用带来了3个全新AI特效:改进的虚拟背景、眼球接触(让你看起来像是在看摄像头)和表情评估,而开发者可以很容易地在自己的APP中集成NVIDIABroadcast的这些功能。
加速内容创作
前面已经介绍过,在配备12GB显存及以上型号的RTX40GPU中内置了第八代双编码器,因此在视频导出速度方面有了巨大的提升。从图中可以看到,RTX相对RTXTi的视频转码时间缩短了一半多,大大提升了工作效率。DaVinciResolve、voukoder和剪映都将首发提供对RTX40双编码器的支持。此外,RTX40在AI视频工具中也大幅提升了效率,例如DaVinciResolveAIMagicMask中,RTX的处理速度就是RTXTi的1.7倍。此外,得益于RTX40系列的第三代RTCores、SER、DLSS3和NVIDIAOmniverse,3D设计师也可以在4K/60fps下进行创作,而无需代理,工作效率大大提升。游戏发烧友和开发者也可以通过Modder直接重制画面增强的经典游戏,并通过RTXRemix添加RTX效果。
总的来说,全新TSMC4N工艺打造的NVIDIAAdaLovelaceGPU在架构、频率与能效比方面带来了巨大的升级,提供了相对上代数倍的性能,全新的RTCores、TensorCores设计、光流加速器加持的DLSS3技术等等都堪称革命性的进步。它不但为玩家带来了速度与画面双绝的光追游戏体验(甚至直接进入了8K游戏的时代),更是为内容创意设计者们带来了极致高效的生产力利器,称得上是GPU发展史上又一个里程碑式的存在。
史无前例的压迫感!RTX魔鹰霸气登场
作为新一代的旗舰,技嘉GeForceRTXGAMINGOC24G魔鹰(以下简称RTX魔鹰)光是外观就让人感受到了极致的压迫感,配备3.5槽散热器的它尺寸达到了mm×.2mm×75.2mm,堪称显卡中的“巨无霸”,如此硕大的散热器也证明了RTX的实力空前强大。
RTX魔鹰配备了家族独有的风之力散热系统,拥有3个mm风扇,配备纳米石墨烯润滑油、支持3D启停、正逆转设计,散热器的均热板直触GPU,搭载10根复合式热管并提供进气格栅,有效提升显卡散热效率,充分保证RTXGPU稳定发挥狂野性能。
显卡配备经过造型强化的全尺寸金属背板,边缘弯曲的设计大幅增强了整体架构的强度,完美保证了超重显卡的抗物理变形能力。配合显卡附带的支架,在立式机箱中使用毫无后顾之忧。
为了满足玩家的不同需求,显卡还提供了双BIOS模式,玩家可以一键切换性能强悍的OC模式或噪声更低的静音模式。辅助供电部分,除了标配新的16pin供电接口之外(显卡附送16Pin转8Pin×4电源线,传统电源也能用),还搭载了供电指示灯,在供电异常时会闪烁,帮助玩家快速排除故障。
个性化部分,显卡搭载了技嘉独有的RGBFUSION灯效系统,3风扇上配备的RGB灯在旋转时的“三环灯效-RGB幻彩光轮”尤其抢眼,并且还能与支持RGBFUSION的其它配件实现灯效联动,打造酷炫的灯效MOD主机。
接口部分,显卡搭载了3个DP1.4和1个HDMI2.1接口,最多可支持4屏输出,充分满足玩家连接多显示设备的需求。
综合来看,RTX魔鹰无论是供电、散热还是个性化设计都达到了目前顶级旗舰的水平,是终极发烧玩家尝鲜RTX的不错选择。接下来就进入大家最为
转载请注明:http://www.aideyishus.com/lkjg/2845.html