芝麻烧饼:集成显卡优化之葵花宝典

来源:百度文库 编辑:九乡新闻网 时间:2024/04/28 14:16:09

集成显卡优化之葵花宝典 性能最高升91%

  写在前面:本篇提到的思路或是方法,作为集显主板硬件优化的技术,原则上适用于所有集显主板,笔者将力图讨论技术本身而不是硬件本身;但由于任何硬件技术都存有相应的硬件载体,因而出现带有主板生产商自身特征的信息是不可避免的,对此大家仅作参考,而在行文的过程中笔者也将尽量回避。

  基于用户认可度和产品行情这两个方面,笔者将讨论重点设定为AMD 790GX芯片组,对于这款号称“史上最强规格”的集显芯片组,各大传媒上的介绍可谓是汗牛充栋------笔者就此略过,只提关键性的一点:相较于其前代780G芯片组,790GX芯片组普遍采用了板载显存的做法,由于板载显存的引入,由此导致了超频后花屏的现象,提升性能的同时解决花屏现象,显然这也是优化集显的主旨所在,故在本篇就其方法也有所得及。


  但是,作为一门较为系统的技术,所牵涉的内容是比较繁杂的,要对进行一一细致的论述,显然是不十分现实的;因此,笔者在本篇主要立足于“授人以鱼,不如授之以渔”,从原理入手,既讲方法,对优化的思路也有所涉及,力求读者朋友牚握相关方法的同时,也能明白方法所依托的原理。


  为了读者们能够有一个较清楚的认识,先进行理论探讨,深化认识之后,再进行技术操作。

  从理论上来看,集成显示核心与一般的显卡的工作原理是一样的。为三部分:数据处理(GPU)、数据存储(显存)与数据传递(总线),差别就在于各部分所依托的硬件载体不同;如图1所示,对K8/K10架构而言,板载GPU与CPU之前通过HT总线互连,GPU通过访问集成在CPU内部的内存控制器,读取被共享为显存的内存中的数据。如此,按提升独显性能的常规思路,只需提升GPU的数据处理能力,并同时提升数据传输的带宽,即可获得性能上的提升;同理,用同样的思路,也可以提升集显的性能。


图1 NV的C51芯片组架构图

  从硬件上来看,集显工作部分实体为:计算部分,即板载的显示核心GPU;数据传输部分,对于K8/K10平台而言是HT总线,Intel平台为FSB前端总线;数据存储部分,为共享为显存的内存。这样,由前面的讲解,将自然地推导出这样的规律:只需提升显示核心和内存的频率就可以实现集显性能的提升。---这无疑是正确的,但却不是全部----实际操作发现,简单的套用所带来的性能提升十分有限。

  原因何在?答案是HT总线。,出于习惯地将集成显示等效为独立显卡,却忽视了另一至关重要的因素,那就是数据传输。我们知道,AMD自754平台开始,抛弃了前端总线架构,转而使用HT总线作为CPU与其他芯片进行数据交换的载体,由于工艺的原因,早期的K8系列主板并不能承受过高的HT总线,这导致绝大数的用户都习惯性将HT总线倍频降低,以提高CPU的外频表现。由于忽视了集显数据传输也同样依托于HT总线,从而导致虽然GPU的数据处理能力提升,内存可提供的数据带宽攀升,但两者之间的数据交换通道地是十分狭隘-----这显然好比水库要泄洪,虽然河道十分宽阔,但是闸门的开口太小,泄洪无法高效进行。

  笔者于2007年使用A690G芯片组偶然之间的发现存在这样的规律,并在之后的一段时间沉迷于对于这一发现的证明与拓广之中。相对于人们常识性地提升核心与内存频率的方法而言,这个发现确实是更具备本质性,因为它不仅是为理论解释提供了素材,也为集显优化技术提供了指导。

  经过漫长的测试,根据集显三个组成部分的对应因素,将影响集显性能的因素按影响因子由大到小排列为:集成显示核心频率>HT总线频率>内存频率与内存参数>CPU主频。需要指出的是,对于不同的平台,各个因素的影响因子并不一致,但是其顺序的非列却是基本一致的。与此同时,在这需要更正一个人们长期以来的成见,即认为CPU主频几乎不影禹集显的性能,---对于INTEL平台这也许是成立,但对于AMD平台而言,由于CPU频率攀升带来内存访问延迟的降低以及内存带宽的提升----这在某种程度等效于提高内存频率和优化时序---同样也能带着集显性能的提升。


  790GX集显的优化操作立足于两点:第一,由于790GX对带宽的要求较高,显示带宽的提升带来的性能提升是十分巨大的,这就意味着人,搭载K10(HT3.0)处理器的790GX平台,相对于搭载K8处理器(HT总线为2.0)的平台,将获得更高的性能表现;第二,790GX板载显存所带来的影响是两面的,虽然可以带来性能的攀升,但同时也引入超外频时花屏的现象(关闭板载显存虽然可以根除花屏现象,但却不是理想的优化集显的方法)。


图2 790GX的架构图

  因此,优化的重点就必然紧在这两个方面:提升带宽和解决花屏现象,其中首要解决的就是显卡花屏现象,因为超外频时花屏现象不解决,外频无法提升,HT总线频率和内存频率都无法得到提升。在得出结论之前,笔者就手头上的一块790GX主板进行实现一个试验。作一点补充,该主板板载容量128M,默认频率为1066的三星颗粒显存。


图3 板载三星1066显存颗粒
 笔者能过BIOS内选定某一显存分频,然后在windows下软拉提高外频,得到某显存外频下对应的最高不花屏外频数值,列表1。

显存频率与最高外频对应表

显存分频/ Mhz

533

400

350

333

最高外频/Mhz

210

260

298

310

 得到计算最高外频的线性公式:

  最高外频=板载显存极限频率÷(BIOS内显存分频/cpu的默认外频)×2。

  其中,BIOS内显存分频一般为400Mhz、533Mhz、667Mhz这几个选项;K8/K10 CPU的默认外频为200Mhz;板载显存的最高频率可以按照板载显存默认频率稍微放大(厂商出于稳定性的需要,会保留一定的余量)。当然也可以根据如下方法得显存极限频率:

1. 在BIOS将显存频率设为一定值,比如说我们可以设成400Mhz(等效于800Mhz)。

2. 以10Mhz为步进逐级提升外频,至花屏为止,然后此基础上将外频降低10Mhz,使用二分法求得在此设定下最高外频。例如我们假定主板在270外频下花屏,取260与270之平均值265Mhz,观察是否花屏;如不,则取265与270之均值,如花屏,则取265与250的平均值。如此循环,直到外频不变。

3. 记录下此时的外频值,按照前面所提的反推。假定主板在265外频不花屏,则此显存的最高频率为:265×(400÷200)×2=1060Mhz.

  如此,则可以根据此显存频率求得不同显存频率设定下的最高外频。


图4 显存频率选项

  不难发现,板载显存体质越好,在相同的设定下极限外频就越高,这也就是为何板载DDR3的主板具备更好的外频表现的原因所在;那么对于板载DDR2显存的主板的用户,就没有什么别的方法可以提升外频了么?结论是NO!具体方法有二:

1. 通过要求厂商在BIOS内增加显存频率333Mhz甚至更低的选项,按照公式,BIOS内显存频率设定值越低,开启板载的极限外频就越高;

2. 软改显存频率,最新的AMD OverDrive2.0.14软件提供了显示核心和显示频率的调节功能。使时需要注意的是,一定在在BIOS内将显示核心频率设定置为默认。

 


图5 AOD软件调节界面

  有了前面的前面的准备工作,这样我们就可以根据需要选定自己需要的外频值,寻求最优的设定参数。

  外频设定:对于影响集显性能五大项目,其中集卡核心频率和内存的参数是独立的,调其中任意一个项目不会影响其他项目,而另外三项却是相互关联,三者的组合起来将产生多种设定;对于优化者而言,自然是希望各个参数均是极优的,以达到理想的性能,然而在实际中并非所有的最优参数所由一种设定实现-----这样,就需求寻找各个互相制衡中的参数的平衡点。

  举例而言,对一颗极限在3.4G的K8 CPU,我们该如何选择外频和倍频的配置,既能发挥出内存的性能,又能让HT总线足够高。这需要相当的技巧,并且需要根据具体情况进行具体的分析。假定内存足够好,6分频比是最理想的,此时内存频率为3400÷6=566,等效为1132Mhz,当然前提是内存能够在该频率下稳定;接下来就需要选持合适的外频,是选择261*13,还是340*10,或是400*8.5,以提升HT总线频率为标准:HT总线为5X,如果主板能够承受2000Mhz的HT总线频率(实际上790GX主板具备此种能力),显然是外频越高越好;于是就得到这样的一组参数:外频400、倍频8.5、内存分频(不是分频比)为DDR667、HT总线倍频为5X(或1000Mhz)---一个初步的优化方案形成。

  因此可以总结出如下思想方法:首先,熟知CPU、内存和主板的三者体质,这是优化的前提;第二,HT总线倍频保持为5X,根据CPU频率选持合理的外频和倍频,理论上是倍频越低越好,以得到高外频;第三,根据倍频和内存体质选择合理的分频比,继而设定相应的分频。

  内存优化:由于各厂商推出的BIOS中内存参数选项不尽相同,所以难以统一论述,只以memset为例,对部分重要的参数进行讲解,得出这些参数的影响规律花费的时间无疑是最多的。


图6 Memset软件

  对于tCL、tRTC、tRP、tRAS、tRC几个参数,大家是十分熟悉的,这即是大家熟悉的“大参”,不待我说,在不影响稳定的前提下,尽量将延迟优化至最低。对比测试发现,tCL的影响因子是最大的,因而保证稳定性的前提下,首先考虑优化该参数。

  而对于一些小参,大家想必是十分陌生的,现将最重要的几个小参罗列出来:

Refresh Mode Select(tRC): 该参数对带宽的影响十分严重;将其设为15.6us(内存默认为7.8us),将带来3D性能十分显著地提升。

Write to write delay(tWRWR):其对性能影响的程度不亚于tRC,黙认为2,将其设为1可带来集显性能的显著提升。

Read/Write Queue Bypass:该参数对于带宽有一定的影响;默认为8X,值设为16X性能较优。

Queue ByPass Max:对带宽有一定影响;默认为7,值越大越好,推荐设为10以上。

Max Asynchrone lantency:默认随主板不同而不同;越小越好,一般不能低于6ns,7ns是笔者主板的合适值。

Idle Cycle limit:根据主板不同而不同,默认为16,实际上可以设为64或更大,对性能有轻微的影响。

  至于其他参数,对性能的影响并不是十分明显。按照值越小,性能越好的思路优化即可。

板载显存优化:对显存的工作模式以及相应参数的设定,将极大提示集显性能。

优化思路如下:

1. 必须开启板载显存。经多次测试对比发现,对于K8平台而言,开启板载显存将带来14%左右的性能提升;

2. UMA-SP Interleave Mode(板载显存-共享内存交互模式)设定为Inter leave ratio(显存与共享显存之比)为1:3,Inter leave size(显存容量)为128M,该参数性能最佳。

3. 对比测试发现,在系统内存为2G的条件下,共享内存设为512M性能最优。

 


Inter leave size设定


Inter leave ratio设定

附:以上每个参数的对照测试均进行三遍以上,其真实性应是毋庸置疑的。

  通过笔者的反复调试,最终在373外频,9倍频,HT总线频率1865Mhz,内存频率1120Mhz,显示核心为1090Mhz下,将3D Mark06成绩提升至2684分;而一颗搭配5000+,2G双通道DDR800内存的790GX主板的默认成绩约为1400分左右,性能幅度提升喜人。

 



  至此,本文的介绍即已告一段落。超频无止境,技术的进步是永不会停止的,在这个技术更新日新月异的时代,希望笔者一篇小说,能为读者朋友们的集显优化策略提供一点浅薄的参考,也希望各位读者朋友不吝赐教,以期技术共同进步。