MCPLive > 杂志文章 > AMD Radeon HD 7970显卡深度评测

AMD Radeon HD 7970显卡深度评测

2012-03-06《微型计算机》评测室《微型计算机》2012年2月上

历史总是惊人地相似,AMD在推出首款DirectX 11显卡以后,再次领先NVIDIA推出首款DirectX 11.1显卡—Radeon HD 7970。这款产品对AMD来说具有划时代的意义,因为它和之前HD 2000~HD 6000系列的任何一款显卡都不同,采用了革命性的GCN图形架构,给出了未来AMD显卡的发展方向。再加上它是第一款采用28nm工艺和支持PCI-E 3.0的显卡,这使得它想不火都难。

AMD Radeon HD 7970显卡深度评测

架构演变:HD 7970的革命之路

从HD 2000系列开始,一直到HD 5000系列,AMD(ATI)显卡在架构上一直没有本质性的改变,始终采用的是VLIW5设计。新产品只是在上一代产品上小幅修改,并没有实质性的突破。到了Cayman核心的HD 6900系列,AMD意识到既有的架构在DirectX 11游戏和不少应用中出现了瓶颈,一味堆砌核心规格并不能显著提升显卡的性能。于是我们看到,HD 6900系列首次作出了尝试。它将VLIW 5改进到VLIW 4,去掉了一个较大的ALU.trans单元,实现了四个对等的流处理单元,计算效率得到了提升。这样的设计,曾被我们称之为“自R600以来大的架构变革”。不过就在我们以为AMD将会遵循Cayman的“VLIW 4改革步伐”,对下一代产品进行改良和突破时,AMD却悄然推出了采用GCN(Graphics Core Next)全新架构、代号为Tahiti核心设计的HD 7900系列显卡,实现了华丽的转身。

表1:HD 7970与相关显卡的规格参数对比
点击查看清晰大图

从今天来看,AMD推出Cayman更像是一次在改革路上的投石问路之举,真正的革命则是在Tahiti上。Tahiti的革命之处在于将AMD长久以来坚持的VLIW架构彻底抛弃,为AMD打开了迈向未来通用计算的大门。从目前的计算趋势来看,通用计算在游戏中被大量使用后,将成为显卡性能的约束性因素。对通用计算支持不好的显卡,在遇到需要进行通用计算处理的任务时,如多光源等较复杂的计算时性能会明显下降。目前DirectX 11游戏越来越多,需要应用到通用计算的场合也越来越多,因此AMD选择在这个时候彻底改革架构是相当明智的。另一方面,GPU计算蓬勃发展的时代已经来临,GPU将在高性能计算领域发挥更重要的作用。而AMD过去的VLIW 5、VLIW 4架构的产品在这方面的表现并不好,远远不如NVIDIA。因此AMD欲搭上GPU计算这班高速列车的话,就势必对图形架构进行大刀阔斧的变革。

GCN图形架构解读

目前,采用Tahiti核心的主要有HD 7970和HD 7950。AMD首先发布的是HD 7970,定位于AMD单核心显卡中的旗舰产品,将接替之前的Radeon HD 6970。它在国内的官方定价为4299元,内建2048个流处理算术逻辑单元、32个CU阵列、128个纹理单元以及32个ROP(光栅处理单元),大浮点计算能力达到了3.79TFLOPs。该卡搭载3GB/GDDR5/384bit显存,核心频率和显存频率分别为925MHz和5500MHz。根据AMD给出的数据,HD 7970在PowerTune大满载功耗下是250W,一般游戏满载功耗是210W,低功耗只有3W,需要8pin+6pin的外接供电。

HD 7950作为采用Tahiti核心的另一款产品,并没有随HD 7970一起发布。目前的消息是,AMD将在1月底或者2月初发布HD 7950。其流处理算数逻辑单元从2048个缩减到1792个,也就是屏蔽了4个CU单元。不过好在它的显存位宽依旧维持在384bit,显存容量保持在3GB不变(下游厂商也可以缩减到1.5GB)。接下来,就让我们从图形架构层面来看看Tahiti的革命性变化吧。

CU单元:基于SIMD阵列的MIMD架构

AMD称GCN在架构设计上为“基于SIMD阵列的MIMD架构(GCN is a MIMD architecture with a SIMD array)”。从AMD的官方表态上我们可以看出,GCN本身并没有彻底地转向MIMD,而是保留了SIMD的特征。那么AMD是如何在保留SIMD特征的基础上采用MIMD架构的呢?

Tahiti拥有32组CU单元
Tahiti拥有32组CU单元

为了解释这个问题,我们先抛开GCN架构的外围部分,从AMD宣称的CU单元,也就是“Compute Unit”计算单元开始了解。在AMD公布的架构图中,CU单元被表示成32组黑色的、命名为GCN的块。这32组CU单元占据了架构图的绝大部分面积。从单个CU单元来看,每个CU单元中有64个ALU(算术逻辑)单元,Radeon HD 7970标称的2048个流处理算术逻辑单元就是这样来的(32×64=2048个)。也就是说,这2048个ALU单元就是GCN架构的基础运算单元。

采用全新设计的CU单元
采用全新设计的CU单元

再进一步分析下去,每一个CU单元中,主要的是矢量计算单元,也就是Vector Unit。这个单元中有4个16路的SIMD计算子模块(每个SIMD模块拥有16个ALU,一共组成16路,可以处理同时并行的16个乘加指令计算),还配备了4个64KB的矢量寄存器(每个SIMD计算子模块各1个)。这4个16路的SIMD计算子模块是CU的数据执行基础。从单个CU的角度来看,1个CU在每个时钟周期内可以执行4个不同的16路矢量线程,可以称为MIMD(多指令多数据流)。而这4个矢量线程在执行时每个线程内都使用的是16路的SIMD计算子模块,因此GCN在底层上采用了单指令多数据流的设计方式。

这样一来,我们就不难理解AMD为什么称自己的产品设计为“基于SIMD阵列的MIMD架构”了。AMD依旧使用了SIMD阵列作为数据执行基础,但在更高一级的层面上采用了四路SIMD单元并行的设计方案。在实际数据操作中,AMD设计的线程调度器会每次派发64粒度的线程给CU单元,CU单元将其直接分配给由4个16路SIMD组成的计算单元计算,在理想的情况下一个CU单元一个周期就可以执行64粒度的线程操作。

相比上一代Cayman采用的VLIW 4架构,虽然它看起来都是每个周期可以执行四次操作,但实际上Cayman这四次操作是有一定的“关联度”的。因为这四次操作必须来自一条指令。如果来的指令只需要3个或者2个ALU计算,那么剩余的ALU只有闲置。但是在GCN这里,如果来的指令需要3个ALU计算,由于底层的四个16路的SIMD单元没有强制的捆绑关系,因此可以自由处理,理论效率接近100%。举个简单例子来说,如果有2个指令,分别同时需要2个ALU计算,在Cayman的单个VLIW 4单元执行时,这2个指令必须分两次执行。但是在GCN的CU上,可以一次执行来自两个指令的4个ALU操作,因此效率大大提升。我们举出这个孤立的例子,仅仅为了说明GCN的数据执行效率的变化,在实际处理中,AMD会采用各种手段来尽量优化分配指令,保证高效率——这并不是本文讨论的重点,我们只需要看到GCN在效率上相对前代产品的超高表现即可。总体而言,GCN与VLIW4(VLIW5)有一定关联,都采用并行运行方式,但两者在执行方式上却截然不同。采用VLIW设计的产品,使用的是提取指令级(ILP)的并行方式,GCN则采用线程级并行(TLP)方式,省略了指令打包、派送、解包的过程。

说完了重要的计算单元,CU中还有一些其它部分值得我们注意。比如除了矢量计算单元外,每个CU中还有一个用于执行整数、媒体指令和浮点原子操作的标量单元。这个标量单元拥有4KB的标量寄存器。此外,还有与数据分支指令有关的分支和信息单元、程序调度管理单元、纹理拾取模块、纹理滤波单元、共享的64KB只读本地数据缓存和16KB可读写L1数据缓存。这些部分在GCN架构的合理调配下,组成了精巧而灵活的CU单元。

缓存:更灵活有效的缓存设计

在之前的Fermi上,我们看到了NVIDIA设计的极为优秀、层级鲜明、灵活可读取的缓存设计,这对通用计算来说帮助相当明显。不过当时AMD的Cayman采用比较保守的VLIW 4架构,缓存设计也基本没有太多亮点。这也是Cayman通用计算能力较差的原因之一。

在新的Tahiti上,AMD彻底改进了GPU的缓存方案,采用了类似Fermi的多级高速缓存搭配。在上一部分对CU的介绍中,我们看到了CU设计了缓存单元。实际上CU中的缓存仅仅是整个GCN架构缓存设计的一部分。除了每个CU中的标量单元和矢量单元都有自己的独立缓存外,每4个CU单元还可以共享16KB的矢量缓存以及32KB的指令缓存。另外每个CU还拥有16KB的L1可读写缓存,所有L1缓存都可以通过全局数据存储进行共享,这样32个CU一共拥有512KB的L1缓存。

除了L1缓存外,GCN还设计了可读写的L2缓存。L2缓存直接连接了显存控制器和L1缓存。每个显存控制器通道上连接的L2缓存都通过64bit位宽的总线和L1相连接,每个通道的L2缓存的容量为128KB。目前GCN架构的Radeon HD 7970拥有6个64bit的显存控制器,组成了384bit的显存带宽,因此L2缓存总量为768KB。

Tahiti使用了丰富的缓存设计
Tahiti使用了丰富的缓存设计

Tahiti如此设计L2缓存还带来了一个优势,那就是它的缓存可以与CPU内存数据同步,这样在通用计算中能大幅度提高GPU和CPU的数据交换能力。除此之外,Tahiti也能够支持X86虚拟内存功能。这个功能的主要作用是将GPU的显存映射为CPU的内存,CPU可以直接读取GPU显存中的数据,速度要比读取调用内存、硬盘中的数据速度快很多,能大幅度降低延迟。

Tahiti使用了丰富的缓存设计
Tahiti使用了丰富的缓存设计

纵观GCN的缓存设计,Tahiti形成了自己多层级的、可读写的缓存存取方案,不但大大改善了GCN架构的通用计算效能,也顺带提升了GCN架构在多种应用环境下的实际表现,让存储成为计算瓶颈的可能性大大降低。

曲面细分、ROP等功能:继续增强

在基本了解了AMD是如何设计GCN的核心部分、CU单元以及缓存设计后,我们从宏观角度来观察这颗芯片的其他方面的设计情况。

首先从架构顶端来看,GCN虽然和之前的Cayman比较类似,但加入了两个被称作ACE的引擎。ACE全称是Asynchronous Compute Engine,异步计算引擎。它的作用是调配管理所有的线程和任务队列,根据任务优先级优化和排序,并终将这些任务发配给CU单元进行计算。这大大增强了Tahiti对任务的优化排序能力,更有效地降低了计算中的无谓浪费和等待时间,同时也提升了缓存的使用效率。从数据处理的本质来看,图形计算依旧是顺序执行,GPU需要按照处理顺序一步一步地执行操作。ACE单元虽然不能像X86的CPU那样做到乱序执行,但至少能在目前有限的操作空间内大幅度提升GPU的效率。从互联角度来看,ACE联系了几乎所有的全局缓存、几何引擎以及指令处理单元。这也说明了其重要性。

AMD显卡的曲面细分能力一直为人所诟病,为此在AMD在Cayman上设计了双几何处理引擎,以加强曲面细分的性能。在Tahiti上,AMD继续沿用了这种设计,并宣称该双几何处理引擎从Cayman的第八代进化到第九代。根据AMD提供的官方数据来看,新的几何处理器引擎在加入了ACE的控制、提高了缓存设计以及强化了相关单元的情况下,相比Cayman至少可以达到1.8倍左右的性能提升(在5级的曲面细分下),多可以达到4倍的提升(在14级曲面细分系数下)。在更高的曲面细分系数如20级以后,至少也有3.5倍的性能提升。

接下来是Tahiti的ROP和显存控制器设计。以Radeon HD 7970为例,这款显卡拥有32个ROP单元,每周期可以执行32个色彩处理以及128个Z/Stencil处理。从参数来看,虽然ROP数量相比上代Cayman的产品没有提升,但和ROP性能有关联的显存带宽得到了提升—这是AMD近年来首次采用384bit显存位宽,相比上代256bit提升了约50%。再加上AMD一贯的高频率显存,采用GCN架构的Radeon HD 7970的显存带宽高达264GB/s。更高的显存带宽,在对显存带宽渴求度比较高的应用如抗锯齿、高分辨率等计算中,会有比较明显的性能提升。

AMD的新功能:全面看HD 7970

在看完有关GCN架构的相关知识后,我们接下来将展示GCN架构目前唯一一款产品——HD 7970的一些新技术和新功能。

28nm加持:晶体管数量多的产品

AMD在工艺上的把握相比NVIDIA要更为激进一些。基本上近年来的新工艺都是AMD抢先使用并推出成品上市,例如早采用40nm工艺的HD 4770。在28nm上,如果单纯从发布时间看,AMD这次至少领先NVIDIA一个季度左右。Radeon HD 7970就是AMD首先尝试了TSMC的28nm HP工艺的代表产品。

TSMC在28nm工艺上首次采用了HKMG(高K金属栅极)和Gate-last两种技术。首先,高K金属栅极之前在英特尔的45nm产品上就开始采用。其主要特点是采用高介电质材料,提高栅极介电常数,可以更好地分隔栅极和晶体管的其他部分,和大幅度降低漏电电流。TSMC是首次使用HKMG材料于晶体管制造中,并且是更为精细的28nm产品,难度可想而知。其次,Gate-last技术和之前技术的不同在于,需要进行高温退火等多个步骤,后才形成金属栅极。这种新技术可以将晶体管的门限电压控制得相当出色,在保持晶体管密度不变外,还能够带来额外的硅应变力。不过这些新技术也有一定问题。主要是新工艺生产的晶体管的产品结构很难实现平整化,必须要在设计端就开始进行调整和改动。在这一点上,AMD肯定没有少花功夫,在产品设计之初就应该和TSMC进行了深入的合作,并且终将这些合作结果反映在实际产品中。目前TSMC的28nm产品分为四种,Tahiti采用的是代号为28HP的High-K金属栅极(HKMG)的高性能工艺。该工艺用于制造高性能处理器和GPU产品,拥有好的每瓦特性能,频率也可以得到2GHz以上,NVIDIA也有可能选择这个工艺制造自己的下一代GPU。

采用28nm工艺生产的Tahiti核心
采用28nm工艺生产的Tahiti核心

从终产品来看,HD 7970在拥有43亿晶体管的情况下,核心面积比40nm的HD 6970反而更小,仅有365平方毫米(HD 6970是389平方毫米)。这样计算下来,晶体管增加60%,面积缩小了6%。可见TSMC的新工艺相比上代产品有大幅度进步,几乎拥有40nm工艺2倍的晶体管密度。另外,HD 7970不但核心面积更小,功耗更低,超频能力也相当强悍。默认电压下突破1GHz比较轻松,而更高的频率如1.2GHz、1.3GHz也不少见。联想到AMD在HD 7970的PCB上减省了一相供电和GPU核心如此强大的超频潜力,我们有理由相信AMD在未来将推出更高频版本的产品来应对NVIDIA的竞争。

显卡生产工艺的进化
显卡生产工艺的进化

不过新工艺早期毕竟存在一些风险,AMD早在12月底就在国外纸面发布了HD 7970,国内的上市日期则一拖再拖到2011年1月9号,才正式发布和上市。根据一些渠道消息,第一批销售的Radeon HD 7970的数量并不多,可能还存在TSMC良率较低、产能不足的影响在内。

台积电的28nm工艺栅极平面图
台积电的28nm工艺栅极平面图

加了0.1:首款支持DirectX 11.1的显卡

这次除了架构上的变化外,HD 7970还能够支持新的DirectX 11.1。目前来看,DirectX 11.1暂时没有什么用处,因为它要等到Windows 8发布的时候才会正式面世。不过AMD自从在Radeon X800系列的DirectX支持上吃了亏以后,从此紧跟微软步伐,不但首发了DirectX 11产品,这次也特别首发了DirectX 11.1的产品,足以看出AMD对DirectX的重视程度。

一般来说,DirectX产品中带0.1的版本改进都颇小,基本上是增添一些附加功能。在之前的DirectX 10到DirectX 10.1上,增加了一些对光影处理的内容,而采用它的游戏也屈指可数。这次在DirectX 11.1上,情况也差不多。

DirectX 11.1重要的改进在于3D立体技术被写入D3D API中。这样一来,游戏厂商开发支持3D立体视觉的游戏就更为简单。目前市场上比较流行的3D立体效果,除了NVIDIA的3D Vision外,还有AMD和厂商联合推广的HD3D,这些技术本身都带有一定的厂商倾向性。但DirectX 11.1加入了对3D立体技术的支持,使得业界有了一个统一标准。不过DirectX 11.1对3D立体技术的支持并非是封闭和排他的,DirectX 11.1不排斥第三方3D立体方案,厂商可以自由选择。其他方面,DirectX 11.1比较重要改进的有目标独立光栅化等功能,不过对普通用户来说暂时看不出有太多视觉上的改变,还有如FP64双精度浮点支持等对普通用户来说就更为遥远了。

在更底层方面,DirectX 11.1带来了新的Windows显示驱动模型WDDM 1.2,以及新的DirectX图形基础架构DXGI 1.2。这些新技术和新架构主要在于改善GPU本身的自由度和控制能力。相信很多用户,特别是使用AMD显卡的用户都遇到过这种情况:在GPU失去响应的时候,系统经常会重置整个GPU,带来的是屏幕瞬间黑屏或者短暂地失去响应。虽然很少丢失数据,但也给用户带来了诸多不便。在WDDM 1.2和Windows 8的共同作用下,GPU被分成很多个区域,这些区域在遇到问题的时候会只重启区域本身,而不影响别的区域。这样一来对用户的影响就小很多,甚至完全没有任何感觉就完成了对出现错误的GPU的重置行为。

总的来说,DirectX 11.1的改进很小,本身没有太多在图形优化上的重头内容,只能算是一次功能的增加,因此玩家目前完全不需要在意DirectX 11.1的支持问题。

3.0时代:首款支持PCI-E 3.0的显卡

PCI-E总线也是发展速度相当快的技术标准。从早期的PCI-E 1.0每通道单向250MB/s的第一代产品,到现在PCI-E 3.0每通道单向速度1GB/s。PCI-E用每代翻番的严格要求完成了速度飞跃,Radeon HD 7970就是首款采用了PCI-E 3.0总线的显卡产品。

从技术角度来看,PCI-E 3.0本身除了速度更快、带宽更高外,在功耗、数据传输等方面都作出了相应的改进。对显卡来说,PCI-E 3.0除了提供给单卡更充足的数据带宽外,对多卡系统比如SLI和CrossFireX等也有相当强的实际意义。它大幅降低了数据传输的性能瓶颈,能够支持更多显卡互联,发展前景相当广阔。但就目前来看,PCI-E带宽还没有成为阻碍显卡性能发挥的瓶颈,暂时来说PCI-E 3.0的意义还不大,只有等到未来进一步有新显卡诞生后,PCI-E 3.0高带宽的优势才能逐渐体现出来。

新架构性能如何?HD 7970性能测试

曲面细分性能是HD 7970重点改善的地方
曲面细分性能是HD 7970重点改善的地方

究竟采用号称革命性架构的HD 7970的性能如何?在本章节中,我们将为你呈现HD 7970的各方面性能表现。接下来,我们将组建以英特尔Core i7 3960X处理器为主的平台,对HD 7970及相关显卡进行全方面的测试。

测试平台

处理器 英特尔Core i7 3960X
主板 ROG玩家国度Rampage Ⅳ Extreme
显卡 HD 7970、HD 6990、HD 6970、HD 6950、
HD 7970 CrossFireX(3Way CrossFireX、4Way CrossFireX)、
GTX 580、GTX 590(都采用公版显卡,运行在公版频率下)
内存 金邦DDR3 2133 4GB×4
电源 长城金牌巨龙1250
系统 Windows 7 64bit旗舰版

我们将选取3DMark 11、3DMark Vantage这两个权威的显卡基准测试软件,对参测显卡的理论基准性能进行测试。同时,会用Unigine Heaven Benchmark 2.5对参测显卡的理论曲面细分性能进行考量,来看看对曲面细分性能进行优化过的HD 7970会有怎样的表现。在游戏选择方面,我们精选了8款有代表性的游戏。有发布不久的《上古卷轴5:天际》,有代表了新的DirectX 11技术的《失落的星球2》、《尘埃3》,也有人气游戏大作《使命召唤:现代战争3》,更有号称“显卡杀手”称号的《地铁2033》、《孤岛危机2》。为了考察HD 7970在通用计算方面的改进,我们选取了GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。

表2:HD 7970与相关显卡的性能对比(游戏单位为fps,环境温度为18℃)
点击查看清晰大图

HD 7970 VS. HD 6970:压倒性优势

从VLIW 5到VLIW 4,再到GCN,HD 7970完成了华丽的转身。新架构使得它完胜上一代旗舰产品HD 6970,整体领先幅度达到了30%以上。例如在《尘埃3》、《地铁2033》(均运行在1920×1080、高画质)的测试中,HD 7970的领先幅度分别达到了33%和48%。甚至它在一些项目的测试中,领先幅度高达50%以上。例如在3DMark Vantage Extreme和《失落的星球2》的测试中,HD 7970的领先幅度分别为53%和67%。HD 7970领先HD 6970并不意外,HD 7970无论是流处理器算术逻辑单元、核心频率、显存带宽、显存容量等主要影响显卡游戏性能的规格参数都远远领先HD 6970。

HD 7970 VS. GTX 580:优势明显

HD 7970借助新架构所得的优势不仅仅体现在与HD 6970的对比中,它还全面领先了曾经的单核心旗舰王者GTX 580,领先幅度在15%左右,优势比较明显。例如在《尘埃3》、《战地3》、《失落的星球2》、《地铁2033》中,HD 7970的领先幅度分别达到了12%、15%、17%、29%。特别是在《失落的星球2》、《地铁2033》这两款“The Way It's Meant To Be Played”游戏中,HD 7970一改以往AMD显卡不给力的印象,性能大幅领先GTX 580。

出现这样的结果,除了HD 7970采用全新的架构、采用线程级并行(TLP)方式,效率更高,以及加入了丰富的缓存设计之外,还和其采用384bit显存位宽有关。近年来,AMD显卡的顶级显卡无一例外都采用的是256bit显存位宽,导致其显存带宽不敌同档次的NVIDIA显卡(采用384bit显存带宽)。以同为单核心旗舰的HD 6970和GTX 580为例,前者虽然显存频率高达5500MHz,但受限于256bit显存位宽,显存带宽只有176GB/s。而GTX 580的显存频率虽然只有4008MHz,但得益于384bit显存位宽,使得其具备了192.4GB/s的显存带宽。而现在HD 7970采用了384bit位宽,显存带宽达到了264GB/s,远远领先GTX 580,整体性能更强也就在情理之中了。

另外,我们注意到HD 7970在《地铁2033》的领先幅度达到了29%,超出了HD 7970领先GTX 580的平均领先幅度。这是因为《地铁2033》是一款以“高纹理”设计见长的游戏,而HD 7970在HD 6970的基础上增加了32个纹理单元,达到了128个纹理单元,纹理单元数量刚好是GTX 580的一倍。因此,HD 7970能够在这款号称“显卡杀手”的游戏中获得更明显的优势。

HD 7970 VS. HD 6990:性能差距不算大

GCN新架构的采用,使得HD 7970具备了和上一代AMD双核心旗舰HD 6990比拼的能力。整体来看,在总共11个3D性能测试项目中,HD 7970在《失落的星球2》、《上古卷轴5:天际》这两个项目中领先HD6990,领先幅度在10%左右;在《使命召唤:现代战争3》、《孤岛危机2》这两个项目中互有伯仲;在3DMark Vantage Extreme、《地铁2033》等余下的7个测试项目中落后HD 6990,落后幅度在18%左右。

HD 7970 4Way CrossFireX将是玩家冲击记录的利器

HD 7970 4Way CrossFireX将是玩家冲击记录的利器
HD 7970 4Way CrossFireX将是玩家冲击记录的利器

虽然我们对采用新架构的HD 7970充满了期待,不过由于规格上的差异较大,其性能仍然不敌双核心的HD 6990。但作为一款单核心的产品,HD 7970已经初步具备了挑战HD 6990的实力,让人不容小觑。 

HD 7950性能预测:落后HD 7970 10%~15%?

虽然HD 7950尚未发布,但这并不影响我们对其进行性能预测。HD 7950和HD 7970相比,主要是流处理算术逻辑单元数量缩减到1792个,被屏蔽了4个CU单元,显存位宽和显存容量保持不变,分别为384bit和3GB。

考虑到HD 7950和HD 7970的规格差异不算大,主要是流处理算术逻辑单元数量被缩减了。结合HD 6970和HD 6950之间的性能差距,以及综合我们过去对AMD顶级单核心显卡和次一级单核心显卡的评测经验,我们大胆预测HD 7950的综合游戏性能将落后HD 7970 10%~15%。

另一方面,结合本次11个3D游戏测试项目来看,HD 7970的性能领先HD 6950 50%左右。再加上上文我们对“HD 7950的综合游戏性能将落后HD 7970 10%~15%”的预判,我们推测HD 7950的综合游戏性能将领先HD 6950 35%~40%。

HD 7970 CrossFireX:效率大爆发

两块HD 7970组成的CrossFireX系统的效率和性能,将是HD 7970的又一个看点。从测试结果来看,我们可以用“惊艳”来形容HD 7970 CrossFireX系统的效率。众所周知,借助DirectX 11的统一渲染架构和AMD自身的优化,AMD HD 5000、HD 6000系列显卡的CrossFireX效率节节攀高,HD 6850(6870)CrossFireX就是典型代表。不过这主要是针对中高端产品而言,而由于种种原因顶级的单核心显卡组建的CrossFireX效率反而没有那么明显。

而HD 7970在采用新的GCN架构、使用线程级并行(TLP)方式以后,可以一次执行来自两个指令的4个ALU操作。而之前采用VLIW 4、VLIW 5架构的AMD显卡则需要分两次来执行上述操作。显然,HD 7970的执行效率得到了大幅提升,这种提升显著反映在CrossFireX的执行效率上。可以看到,HD 7970 CrossFireX在绝大部分测试项目中,相对于HD 7970都保持了90%,甚至100%的性能提升——这样超高的执行效率对单核心的旗舰显卡来说是非常难得的。例如在3DMark 11 Extreme、Unigine Heaven Benchmark 2.5、《尘埃3》、《战地3》、《异形大战铁血战士》、《地铁2033》上,HD 7970 CrossFireX的提升效率都非常接近100%或者已经达到了100%。

HD 7970 3Way CrossFireX、4Way CrossFireX:3DMark 11 Extreme分数破万

对那些发烧玩家和以冲击记录为目的的玩家来说,他们更关心HD 7970 3Way CrossFireX、4Way CrossFireX的性能表现。测试结果表明,HD 7970多路CrossFireX系统的确可以大幅提升3DMark等基准测试软件的性能。在3DMark 11 Extreme测试中,HD 7970 3Way CrossFireX较HD 7970、HD 7970 CrossFireX分别提升了183%和45%;HD 7970 4Way CrossFireX较HD 7970、HD 7970 CrossFireX、HD 7970 3Way CrossFireX分别提升了265%、87%、29%。值得一提的是,HD 79704Way CrossFireX取得了X10037的高分数。同样地,多路CrossFireX在Unigine Heaven Benchmark 2.5测试中亦有上佳的表现。

用HD 7970组建的三屏系统,可以在高分辨率下获得更舒适的游戏体验。
用HD 7970组建的三屏系统,可以在高分辨率下获得更舒适的游戏体验。

不过在实际游戏中,多路CrossFireX的表现相对就比较差了。这其中,HD 7970 3Way CrossFireX的游戏表现稍好,例如在《尘埃3》测试中,相对HD 7970、HD 7970 CrossFireX,HD 7970 3Way CrossFireX的性能分别提升了121%、20%。而HD 7970 4Way CrossFireX的表现则比较糟糕了,在总共5个游戏测试项目中,除了《异形大战铁血战士》以外,在另外4个测试项目中性能不但没有提升,反而有所下降。这个测试成绩也和过去我们对AMD显卡的多路CrossFireX系统的测试结果基本吻合。这再次说明,如果单纯从提升游戏性能的角度出发,多只需要组建3Way CrossFireX,4Way CrossFireX已经没有实际意义了。4Way CrossFireX的意义在于可以显著提升3DMark的分数,帮助玩家冲击记录。

表3:HD 7970组建多路CrossFireX的成绩

HD 7970
3Way CrossFireX
HD 7970
4Way CrossFireX
3DMark 11 Extreme X7789 X10037
Unigine Heaven Benchmark 2.5 1920×1080
Shader(High)、Tessellation(Extreme)
150.2 174.2
《尘埃3》
1920×1080、高画质 212.2(153.4) N/A
1920×1080、高画质、8AA 204.25(153) 204.25(153) N/A
《失落的星球2》
1920×1080、高画质 122.2(31) 102(41)
1920×1080、高画质 114.5(30) 97.7(39)
《异形大战铁血战士》
1920×1080、高画质、16AF 280.5(173) 342(214)
《战地3》
1920×1080、高画质、16AF 164.8(122) 160.5(110)
1920×1080、高画质、4AA、16AF 133.8(120) 157(96)
《孤岛危机2》
1920×1080、超高画质、DX11、高材质纹理 85.6(74) 73.5(38)
1920×1080、高画质、DX11、高材质纹理 100(98) 100(97)
PC待机功耗 123W 127W
PC满载功耗 988W 1243W

在测试中,我们注意到对A卡进行了特别优化的《异形大战铁血战士》,对多路CrossFireX支持得很好。以HD 7970 3Way CrossFireX为例,它的性能分别领先HD 7970、HD 7970 CrossFireX 198%和49%。即使是HD 7970 4Way CrossFireX,相对HD 7970 3Way CrossFireX亦有22%的性能提升,相对HD 7970则有高达264%的性能提升。不难看出,多路HD 7970系统在该游戏的提升幅度基本和3DMark等基准测试软件的结果相符合。

另一方面,多路CrossFireX在测试中也遇到了一些问题。例如HD 7970 4Way CrossFireX在运行《尘埃3》时,不断出现死机问题,无法获得测试结果;同样的情况也出现在其他游戏中,只是在其他游戏中,我们可以通过重新启动游戏、反复测试等手段来获得测试结果,而《尘埃3》却无法做到。总体而言,我们建议那些打算组建HD 7970 CrossFireX的用户,如果你不是“跑分党”的话,从功耗、效率和价格综合考虑,组建HD 7970 CrossFireX是合适的,HD 7970 3Way CrossFireX 、4Way CrossFireX意义不大。

HD 7970 4Way的3DMark 11 Extreme分数破万
HD 7970 4Way的3DMark 11 Extreme分数破万

HD 7970(CrossFireX)三屏表现:基本令人满意

Eyefinity作为AMD独有的多屏显示技术,在游戏、金融等许多领域有广泛的应用前景,一些游戏发烧玩家以Eyefinity技术为基础,组建三屏系统,以获得更高的分辨率和更好的游戏体验。因此我们特意组建了三屏系统,来看看HD 7970能否具备在5760×1080超高分辨率下流畅运行游戏的实力。从4个游戏和一个基准测试软件的测试结果来看,HD 7970的性能损失比较严重,普遍在50%以上。例如在《尘埃3》、《孤岛危机2》中,三屏下的HD 7970的性能较单卡性能分别下降了53% 和60%。好在HD 7970的性能足够出色,除了《孤岛危机2》以外,它在余下4个游戏中都保持了40fps的帧率(包括在抗锯齿模式下),基本满足了流畅运行游戏的需求。

表4:HD 7970(CrossFireX)在三屏下的游戏性能

HD 7970 HD 7970 CrossFireX
Unigine Heaven Benchmark 2.5 1920×1080
Shader(High)、Tessellation(Extreme)
21.5 43
《尘埃3》
1920×1080、高画质 45(37.53) 83.76(70)
1920×1080、高画质、8AA 40(33.75) 76(64.8)
《失落的星球2》
1920×1080、高画质 45.4(31) 81.8(54)
1920×1080、高画质 4AA 36.7(22) 66.6(33)
《异形大战铁血战士》
1920×1080、高画质、16AF 45.3(23) 89(46)
《孤岛危机2》
1920×1080、超高画质、DX11、高材质纹理 18.6(16) 36(32)
1920×1080、高画质、DX11、高材质纹理 36(33) 67(58)

此外我们还组建了HD 7970 CrossFireX系统,在三屏下进行了游戏测试。HD 7970 CrossFireX在三屏下依旧延续了超高的效率,相比HD 7970单卡在三屏下的性能有近100%的性能提升,流畅运行游戏没有任何问题。不过由于驱动优化的问题,在使用CrossFireX系统运行在三屏下时,不时会出现游戏无故退出,或者需要多次启动游戏才能运行的问题。

HD 7970:通用计算能力攀新高

HD 7970除了大幅提升游戏性能之外,其通用计算方面的改进尤其令人关注。究竟在使用了新架构、改进了执行效率,和增加了丰富的缓存设计以后,它的通用计算性能能否有大幅提升呢?我们使用GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。GPCBenchmarkOCL是一款基于OpenCL的测试软件,可以全面测试和评估GPU在通用计算方面的性能以及底层的性能。例如可以测试出GPU的峰值计算性能,GPU在各种实用算法中的实际性能。ComputeMark在技术上基于由Jan Vlietinck开发的Fluid3D Demo,号称可以“百分之百测试DX11Compute Shader的基准测试工具”。它在一般情况下能够调动99%的GPU资源,可以深度测试HD 7970的通用计算性能。

HD 7970的核心频率可以轻松超频至1000MHz以上,并通过FurMark稳定测试。
HD 7970的核心频率可以轻松超频至1000MHz以上,并通过FurMark稳定测试。

两款测试软件的结果都表达出一个明确的信号:HD 7970在新架构和丰富的缓存设计的帮助下,通用计算性能提升到一个令人吃惊的地步。从GPCBenchmarkOCL的测试来看,HD 7970的总分分别领先HD 6970、GTX 580高达176%和58%。

新版的催化剂控制中心拥有更丰富和人性化的界面
新版的催化剂控制中心拥有更丰富和人性化的界面

例如在全局存储器、局部存储器的子项测试中,HD 7970都有出色的表现。特别是局部存储器的子项测试,HD 7970的多层缓存架构体系使得它在该项测试中获益良多,性能领先HD 6970高达524%。这是因为HD 6970仍然采用的是VLIW 4架构,没有引入缓存设计,测试大幅落后也就在情理之中了。而和同样具备丰富的缓存设计的GTX 580相比,HD 7970也不逞多让,也获得了51%的领先优势,从侧面反映出HD 7970高效的缓存架构设计。

HD 7970 4Way CrossFireX在FurMark拷机时,四颗GPU核心的温度明显提升了不少。
HD 7970 4Way CrossFireX在FurMark拷机时,四颗GPU核心的温度明显提升了不少。

GTX 580唯一占优势的是双精度的实际计算性能。首先是双精度浮点运算子项,HD 7970领先GTX 580达310%,反映出HD 7970优秀的双精度浮点运算性能。但在常用数学方法(双精度)子项上,GTX 580却反而领先HD 7970 20%。这说明虽然GTX 580的双精度浮点运算性能不如HD 7970,但在一些常见应用方面的双精度性能却领先HD 7970。双精度性能主要和高性能计算有关,这个测试结果也和GTX 580在高性能计算领域的地位相吻合。

在ComputeMark测试方面,HD 7970继续着良好的势头,分别领先HD 6970、GTX 580达109%和80%。这说明,HD 7970的Compute Shader性能更强,在加速图形后期处理、随机访问等方面的效率更高。

HD 7970的曲面计算能力:比GTX 580更强

坦白说,HD 7970相对于HD 6970在有关曲面细分性能的硬件规格上并没有作明显的改进和提升,但AMD却宣称HD 7970的曲面细分性能有了长足的进步。我们利用Unigine Heaven Benchmark 2.5对HD 7970进行测试后发现,它的曲面细分性能很强,性能分别领先HD 6970、GTX 580达78%和19%,一改HD 5000、HD 6000系列显卡曲面细分性能低下的局面。

表5:HD 7970与相关显卡在通用计算性能方面的对比

HD 7970 HD 6970 GTX 580
ComputeMark 3117 1493 1730
GPCBenchmarkOCL 6145.5 2223.3 3883.4
全局存储器 225.5 126.6 208.6
局部存储器 238.5 39.1 158.1
单精度浮点运算 377.9 123.6 187.4
双精度浮点运算 1056.8 0 257.2
常用数学方法(单精度) 563.1 422.8 965.3
常用数学方法(双精度) 1164.7 0 1401.6
图像处理 1573.7 889.9 417.9
密码学 945.2 621.3 287.2

HD 7970在没有明显提升有关曲面细分性能的硬件规格的情况下,仍然大幅提升了其在Unigine Heaven Benchmark 2.5下的性能,主要原因有两个。一则是,HD 7970的硬件规格得到了长足提升,综合3D性能明显得以加强(Unigine Heaven Benchmark 2.5除了侧重曲面细分的测试以外,还有大量其他场景,可以综合测试显卡的3D性能);二则是,HD 7970使用了全新的GCN架构,优化了执行指令的方式,整体效率更高,从而提升了它的曲面细分性能。

HD 7970的超频表现:上1GHz无压力

28nm工艺究竟会给HD 7970带来怎样的超频表现呢?我们利用催化剂控制中心,轻松将HD 7970超频至1125MHz、6300MHz,3DMark 11 Exreme模式的性能提升了18%。而且此时其GPU满载温度也只有80℃,PC满载功耗为393W。

HD 7970的功耗、温度表现:控制得不错

采用28nm工艺生产的HD 7970的PC待机功耗为为117W,是参测显卡中表现好的。在PC满载功耗方面(使用FurMark进行拷机),HD 7970所在的平台达到了422W,比HD 6970、GTX 580所在的平台分别高了36W和8W。虽然HD 7970采用的是28nm工艺,但考虑到其硬件规格参数有大幅的提升,而且还将PC满载功耗基本控制在和上一代同档次显卡的水平,我们认为它的功耗控制还是基本令人满意的。

温度表现方面,HD 7970借助28nm工艺将待机温度和满载温度分别控制在32℃和79℃上,这个测试结果在同档次显卡中属于很优秀的表现。相对而言,由HD 7970组成的CrossFireX系统的PC功耗就比较高了。以HD 7970 CrossFireX为例,它的PC满载系统功耗达到了690W。好在两颗Tahiti核心的温度并不高,分别为32℃和86℃,在可以接受的范围内。

不过HD 7970 3Way Cros sFi reX、4Way CrossFireX的表现就没有那么好了,它们的PC满载功耗分别达到了988W和1243W。HD 7970 4Way CrossFireX在满载状态下,四颗核心的满载温度更是分别达到了79℃、88℃、87℃、92℃。

首批抵达《微型计算机》评测室的HD 7970显卡一览

迪兰HD7970 3G

迪兰HD7970 3G

核心频率 925MHz
显存频率 5500MHz
价格 4699元
蓝宝HD7970 3G

蓝宝HD7970 3G

核心频率 925MHz
显存频率 5500MHz
价格 4699元
镭风HD7970龙蜥版3072M

镭风HD7970龙蜥版3072M

核心频率 925MHz
显存频率 5500MHz
价格 4299元

HD 7970:自我超越,全面胜利

如果非要用一个字来形容HD 7970的话,“新”是非常合适的:全新的图形架构、全新的游戏性能、全新的曲面细分性能、全新的功耗表现、全新的交火效率、全新的生产工艺。

没错,HD 7970是一款从里到外都是全新的产品,实现了自我超越,是一场全面的胜利。AMD在认识到未来图形发展的趋势和自身的不足后,终于抛弃了沿用多年的VLIW架构。而事实证明,这是卓有成效的。无论是图形计算还是通用计算,它都达到了一个新的高度,单卡卡皇的地位毋庸置疑。特别是通用计算,它设计了丰富的缓存结构,无疑更适合进行这方面的工作,具备了进军高性能计算领域的潜力。虽然该显卡在硬件层面上已经做好了拥抱通用计算的准备,并在一些理论测试软件上获得了不俗的成绩,但要获得市场和行业用户的认可还有一个较长的过程。友商NVIDIA之所以在高性能计算市场上节节开花,除了借助专为通用计算进行优化的Fermi以外(硬件层面),还拥有丰富的、基于CUDA开发的一整套软件。而AMD目前在这方面还无法和NVIDIA相抗衡。另外,据我们所知在整个HD 7000系列产品中,暂时只有高端显卡采用了全新的GCN架构,中低端产品依旧会坚持VLIW 4甚至VLIW 5的架构,更专注于游戏性能。这和NVIDIA在中低端产品上剔除有关高性能计算单元、更注重游戏性能的做法有异曲同工之处。

而HD 7950虽然还没有发布。但据悉,AMD将从它发布伊始就开放非公版授权,届时会有大量非公版涌现。当然,真正的高手是无惧挑战的。HD 7970马上就将遇到挑战者—代号为“开普勒”的NVIDIA下一代产品即将发布。届时又将是一场激动人心的王者之争,预知胜负,敬请关注本刊后续报道。

分享到:

用户评论

共有评论(1)

  • 2012.06.17 16:36
    1楼

    这篇文章写的不错,美中不足是没有对照GPU和CPU在通用计算和浮点运算的差异与数据.如果有此数据就可知道在APU明年实现真正的CPU/GPU统一寻址后,而APU不仅仅是CPU、GPU的简单物理整合,更是深层次的融合,而实现这种融合的关键之一就是CPU、GPU的统一内存空间寻址。经过Llano、Trinity的两代铺垫之后,明年的Kaveri将终完全实现这一梦想。彻底实现统一寻址后,CPU、GPU之间就可以有通用的用户调用,并共享数据,从而避免相互的数据拷贝和带宽浪费,也摆脱对高内存频率的依赖,为二者的更进一步融合奠定坚实的基础。无论是3D图形性能还是并行计算性能,都会因此上一个台阶。这才是HD7970架构的先进之处.但是总的来说很好.

    (0) (0) 回复

用户名:

密码: