编码机

GeForceRTX3080显卡天梯榜首

发布时间:2022/10/2 14:33:39   
北京中科医院是假的 https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E4%B8%AD%E7%A7%91%E7%99%BD%E7%99%9C%E9%A3%8E%E5%8C%BB%E9%99%A2/9728824?fr=aladdin

从目前的游戏生态来看,具有实时光线踪画面已然是3A大作的开发方向,这是将游戏画面真实度带上新台阶的一项重要技术,而它的起点就是率先支持实时光线追踪的英伟达图灵架构显卡。除此之外,实现更好的游戏画面还有一个简单的方法就是以更高分辨率运行,在宣传了多年“4K游戏”的概念之后,在图灵显卡上也终于可以在4K分辨率下流畅运行绝大部分的3A大作。

但是,玩家对于更好的游戏画面的追求并不是二选一,如果要同时以4K分辨率和实时光线追踪画面流畅运行游戏的话,图灵显卡还是显得有些吃力。但是不可否认,图灵仍然是一款划时代的产品,它是从0到1个跨越,而现在,玩家需要的是从这个基础上腾飞,让4K光追游戏从梦想照进现实,成为可能并且进入寻常百姓家,做到真正的普及,英伟达新一代Ampere(安培)架构显卡的推出,就是为了完成这一使命。

基于NVIDIA安培架构的A计算卡

其实早在5月份的时候,英伟达发布新一代的A加速计算卡时,新一代的英伟达安培架构就算已经问世了,我们也知道了英伟达安培架构下的最大核心GA核心的架构图,完整版的GA拥有组SM,每组SM中拥有4个最新的第三代TensorCores,仍然是64个CUDACores/SM的结构。

完整的GA有着个CUDA核心和个第三代TensorCores,因为它是面向纯计算领域的核心,所以没有RTCore,可以说是Volta架构的直属继承者,面积高达mm2,比GV核心还要大,这还是换用了台积电的7nm工艺才达成的。在A加速计算卡上见识到新架构之后,玩家都很期待基于新架构的游戏卡能尽快推出。

年9月2日凌晨,NVIDIA终于推出了大家盼望已久的新一代GeForceRTX30系显卡,首发的显卡有三个型号,分别为RTX、RTX和RTX,其中最先上市也就是最先能与玩家见面的,是其中的RTX。

同时,游戏卡方向的AmpereGPU的面纱也被揭开,虽然同样是基于NVIDIAAmpere架构,但游戏卡和专业卡的NVIDIAAmpere架构与计算卡(也就是之前已经发布的A)上面的NVIDIAAmpere架构有很大的区别点,只不过共享了部分特性而已。接下来,我们从面向游戏的安培架构看起,然后通过首发的RTX,来看看新一代的GeForceRTX30系列显卡到底能带给我们什么惊喜。

英伟达安培架构解析

RTX30系游戏显卡中最大的核心:GA核心

NVIDIA对Ampere核心的命名延续了自家的一贯传统,使用了GA的前缀,A代表的就是Ampere,纪念的是发现安培定律的安德烈-马里·安培。在字母后面了三位代表核心等级的数字,其中GA是计算卡专用的核心,游戏卡/专业卡则是使用GA和GA等核心。在首批发布的RTX30系显卡中,有RTX和RTX两张显卡使用了GA这枚核心,它是NVIDIAAmpere游戏分支架构中规模最大的核心,也是最为完整的Ampere游戏核心。

GA核心面积高达mm2,使用三星为NVIDIA定制的8nm工艺打造,集成有亿个晶体管。单从晶体管数量上我们已经可以感受到这颗核心在规模上膨胀了不少(TU为亿个)。将NVIDIA的三代最大规模的GPU放在一起对比,可以发现Samsung8N工艺在晶体管密度这一指标上较上代使用的TSMC12FFN工艺有较大的提升。

NVIDIA目前已经给出了GA核心的完整架构示意图(上图),它仍然沿用了从NVIDIAPascal架构开始定下的GPC-TPC-SM层级架构,拥有7组GPC,每组GPC包含6组TPC,每组TPC包含2组SM。所以一枚完整的GA核心拥有84个SM单元。我们再来对比一下它和上代最大核心——TU之间的区别。

从图中我们很明显可以看到GA多了一组GPC,也就是比TU要多出12组SM单元,如果SM单元没有发生大的变化的话,那它的计算规模就已经大了1/6,完整版的GA应该是拥有个FP32ALU(CUDA核心)。另外,我们还可以看到新的AmpereGPU支持PCIe4.0总线,在x16宽度下它的速率为16GT/s,每秒可传输约31.5GB/s的数据。当然,完整版GA仍然支持NVIDIA独家的GPU互联技术——NVLink,与A计算卡类似的是,GA核心上的NVLink有显著升级,另外它现在是4x4的排布,而不是原来8x2的分配,也就是说,能够连接更多的GPU。

从宏观层面上看完GA,我们再进入到NVIDIAGPU的最小计算组——SM单元中,看看Ampere的SM单元为我们带来了哪些不一样的东西。

2倍性能的第二代RTXSM

年8月份,NVIDIA在推出RTX20系列显卡的时候着重介绍了他们的RTX概念,将实时光线追踪和AI计算引入到了GPU中,其SM单元可以说是发生了翻天覆地的变化。NVIDIA在NVIDIAAmpere架构上则是着重提升了整个SM的性能表现,虽然在结构上没有做出太大的修改,但SM单元的性能已经不可同日而语。主要提升有三点,针对传统图形计算的FP32单元加倍、引入第二代RTCore和第三代TensorCore。

NVIDIAAmpere架构SM的性能两倍于Turing架构SM

GASM(左)对比GASM(右)

双倍的FP32单元,双倍的快乐

在NVIDIATuring架构上面,NVIDIA引入了分数据类型计算的理念,将整数型(INT32)和单精度浮点型(FP32)两种不同的数据类型交给两种不同的ALU进行计算,大大提高了SM单元的并行计算效率。不过现代游戏应用中最为常见的还是FP32,也就是单精度浮点类型的计算,INT32ALU的使用率是要比FP32ALU的低的。为了提升计算效率,NVIDIA引入了可同时支持INT32和FP32两种数据类型的新ALU,取代了原本只支持INT32计算的ALU。也就是说,现在有两条不同的数据路径(Datapath),一条能够处理整数或单精度浮点,另一条只能处理单精度浮点计算。

原本一个SM单元又被划分成四个更小的区块,每个区块有自己的调度器和寄存器,能够调度16个INT32ALU和16个FP32ALU,整个SM单元同时可以处理64个INT32计算指令和64个FP32计算指令。到了Ampere上则是变成个FP32计算指令或64个INT32计算指令和64个FP32计算指令。在遇到以FP32为主的图形计算时,其计算吞吐量最高可以提高到原本的两倍。

另外NVIDIA也更新了CUDA核心的计数方式,现在以一个FP32ALU为一个CUDA核心,所以在NVIDIAAmpere架构上,每个SM单元拥有的CUDA核心数倍增到了个。

为了配合规模有一定扩张的计算单元,NVIDIA对每个SM的缓存系统也进行了一定的改良。AmpereSM的共享缓存/L1数据缓存容量从96KB增长到了KB,同时其带宽变为原来的两倍,实现容量带宽双增长。

第二代RTCore带来光追效率的显著提升

在NVIDIATuring架构上,NVIDIA首次引入了能够针对实时光线追踪运算进行加速的RTCore。在执行实时光线追踪相关的计算时,现代的基于SIMD的CUDA核心在进行光线和物体表现碰撞点等计算时表现出来的效率太低,反而是基于MIMD架构的特定用途计算模块更为高效。NVIDIA的RTCore就是这样一种专门为实时光线追踪计算进行加速处理的专用硬件单元。

AmpereGPU上的RTCore主要是增加了对动态模糊的加速运算支持。在非光追情况下的动态模糊往往只是对画面套用后处理滤镜,其效果并不真实。在实时光追情况下,动态模糊则是通过实时计算物体与光线的交互情况所产生的,其运算非常复杂,就算是Turing上面的RTCore也难以承载。到了NVIDIAAmpere架构,其第二代RTCore中加入了NVIDIA设计的插值算法,在保证动态模糊精确性的同时提高了该情况下的实时光线追踪效率,官方称最高可以实现8倍于前代的速度。另外,在基础的BVH计算上面,新一代RTCore也能够快上2倍。

第三代TensorCore让AI性能出现飞跃

从NVIDIAVolta架构开始,NVIDIA就在SM单元中引入为AI计算优化的TensorCore,这些张量计算单元能够提高显卡在机器学习计算上的效率。在NVIDIAAmpere架构上,TensorCore已经进化到了第三代,之前发布的A计算卡上已经用上了新的第三代TensorCore,它能够提供比第二代TensorCore高出4倍的效能。不过游戏卡上面的TensorCore进行了一定的精简,其FP16FMA计算的吞吐量只有GA核心中的TensorCore的一半。

第三代TensorCore除了在效能方面有提升之外,还对稀疏矩阵运算提供了支持,详细的介绍可以看我们之前对计算卡方向的NVIDIAAmpere架构的解析:《NVIDIA新一代Ampere架构简单解读:一次有改良有革命的架构升级》。总的来说,即便是面向游戏的NVIDIAAmpere架构将每SM的TensorCore数量从8个减到了4个,它的整体效能仍然是有很大提升。

又进一大步的DLSS8K

新的TensorCore带来的更强劲的AI算力将会为DLSS助力,在今年早些时候,NVIDIA开始全面推广DLSS2.0技术,相比起初代DLSS,DLSS2.0不管是在画面质量还是在渲染效率上都有很大的提升,已经不再是所谓的鸡肋功能,而是能够有效地让中端显卡在3A大作中跑出4K60这样的表现。AmpereGPU并没有带来更新的“DLSS3.0”,不过仍然是将这项技术往前推了一步——DLSS8K,顾名思义,它就是通过深度学习技术将画面分辨率拉伸至8K的新版DLSS。

虽然NVIDIA并没有用DLSS3.0这样的命名,但是DLSS8K在技术上仍然有一定的突破,具体一点就是它将会使用p分辨率的实际渲染图像,去推导8K分辨率的输出图像,其像素数量跨越了整整9倍(x=x)。此前在DLSS上面,最高也就是实现4倍的画面拉伸(x=x),现在这一数字直接跳至9倍,显示了AI升频技术那巨大的潜力。

并行程度更高的渲染管线

将不同类型的计算交给不同的单元去处理是从NVIDIAVolta架构就开始采纳的一种理念,当时引入的TensorCore分流了很多AI相关的运算,而在其后引入的RTCore又将实时光线追踪相关的计算给分流了。那么它们可以并行执行吗?可以,但并不是全部运算都能够并行执行。

如上图所示,TuringGPU在开启实时光追和DLSS时,其RTCore和TensorCore并不是并行工作的,TensorCore被调用的时间点已经接近整个渲染流程的末尾,它没有和RTCore同时运行。

在NVIDIAAmpere架构上,NVIDIA提升了GPU内部各种单元之间的并行性,现在传统计算单元、RTCore和TensorCore这三大单元可以同时工作,在原本基础上继续缩短帧渲染时间。

GDDR6X显存让带宽起飞

我们知道,GPU非常依赖高速缓存,不仅仅是GPU内部的各种缓存系统,更是对外部作为“仓库”使用的显存系统有着非常高的要求,在渲染分辨率越来越高的如今,GPU不仅需要更大的显存供它存放各种渲染素材,还需要带宽更大的显存供它实现更快的数据读取。从最早的3D加速卡一路走来,显存从使用与传统DDR区别不大的GDDR2,到使用GDDR3、GDDR5,再到使用专为超高带宽设计的HBM,其类型更换、升级的速度远比传统的DDR内存来的快。

NVIDIA在年的Turing显卡上面首次应用了GDDR6显存,在当时,GDDR6显存能够提供比疲态尽显的GDDR5高的多的带宽,也让GDDR5X黯然失色。但在RTX30系显卡核心规模暴增的情况下,原来的GDDR6显存已经有些不够用了,于是NVIDIA携手美光,推出了GDDR6的升级版——GDDR6X显存。别看它只多了一个X的后缀,但它在底层信号传输方面有着非常重大的变化,并首次将GDDR系列的显存带宽推高到了1TB/s的高度。

GDDR6X显存上出现重大变化的地方是它的信号传输机制。原本的GDDR系显存使用的是非常原始的二进制信号,再具体一点,该系列显存使用的是NRZ(Non-Return-to-Zero)调制,这种信号调制方式很简单,它用高电平代表1,低电平代表0。如果要提高它的数据带宽,那么提高显存的时钟频率即可。但现在由于受到制程工艺等各方面因素的影响,显存的时钟频率在现阶段已经很难再攀高,那么该怎么办呢?厂商想到了用新的信号调制机制来提高信号传输的效率,他们选择了已经有较为广泛的PAM4。

PAM是一种用模拟信号脉冲编码信息的信号调制方式,PAM4是其中较为简单的一种。与NRZ这种仅有高和低两种状态的二进制信号不同的是,PAM4有4种不同的电平值,也就是它有4种不同的状态,而每种状态对应着一种0和1的组合,也就是说,它的每个状态对应了2个bit的数据量,较NRZ是翻倍的。

如果这么说还有些模糊的话,这里可以将PAM4信号类比成MLC闪存存放数据的方式。我们知道,MLC闪存的每个单元可以存放2-bit的数据,在电信号层面上它表现为4种不同的电平,每个电平之间有固定的间隔,主控在读取和写入的时候都按照固定的规则将数据和电信号进行转换。

那么GDDR6X也是如此,根据NVIDIA公布出来的信息,GDDR6X有四种不同的电平信号,每个电平信号之间的电压差为mV。另外NVIDIA还配套引入了MTA编码,在信号传输层面上减少损耗,保证稳定性。

在GA应用的RTX和RTX上,NVIDIA都使用了GDDR6X显存,RTX的显存带宽是GB/s,RTX的显存带宽还要高,为GB/s,已经接近0GB/s大关,不排除未来会有使用更高频率显存的产品出现。

支持HDMI2.1输出和AV1解码

在视频编解码和视频输出方面,Ampere也紧随时代潮流做了升级。首先是加入了对近期大热的HDMI2.1的支持,该接口主要以8K输出为噱头,能够更好地配合新一代的8K电视。我们之前对HDMI2.1做过简单介绍,有兴趣的可以阅读:《有问有答:除了更高的带宽外,HDMI2.1还有哪些新东西值得

转载请注明:http://www.aideyishus.com/lkyy/1716.html

------分隔线----------------------------