骚猪新浪微博:【俩老外神侃————APU就是游戏神物!】

来源:百度文库 编辑:九乡新闻网 时间:2024/05/06 07:19:07
俩老外神侃————APU就是游戏神物! 发表于 2011-08-15 10:50:58  分享到 

系列上篇:俩老外神侃—————苹果为什么这么红


Johnny:“最近APU异构并行计算炒得很火啊,乔治,什么是异构计算啊?”

George:“约翰尼,异构计算技术于80年代中期产生,主要用于网络异构分布式并行计算和超算。APU是将异构计算这一理论首次引入到CPU、GPU领域后出现的第一个产品。你要想把APU的并行异构计算搞得非常清楚,就得去请教微软或AMD啦。”

Johnny:“我听说中国计量科学院刚刚开发完成HC Benchmark,号称是全球第一款真正的异构计算基准测试工具。程序就会自动为CPU、GPU分配计算任务。如果说GPU不支持加速计算,就会全部交给CPU执行,或反之。”

George:“哈哈哈,如果是这样的话,AMD还有必要发展异构计算吗。我敢肯定,APU异构计算绝不是像中国计量科学院认为的那样,CPU和GPU适合干啥,就由HC Benchmark程序分给谁去干啥,这是老套的网络异构计算的延续。若APU异构计算果真如此,CPU+独立显卡不比APU更好吗!”

Johnny:“你说得很有道理啊,那,我们就把这当个玩笑吧”

George:“哈哈哈,对,确实很幽默。”

Johnny:“对了,我好像前些日子看到微软说,C++ AMP全面支持APU异构计算,而且给出测试,3800系列APU里的GPU性能相当于2.31倍的Radeon HD 5800,你说玄乎吧!你要想看,我给你网址:微软宣布C++ AMP全面支持APU异构计算”

George:“我也曾看过,就算APU3850性能是Radeon HD5830的2.31倍,那也太令人震惊了!”

Johnny:“那太好了,我买一颗APU,还送给我一颗HD5830,我要开心死了”

George:“约翰尼,你曲解了!准确的说,你应该这样理解:Llano 3850APU的通用计算性能至少相当于HD5830的2.31倍。”

Johnny:“按你这么说,不能理解为:Llano 3850APU的游戏性能至少相当于HD5830的2.31倍了?”

George:“对!!!因为内存带宽严重制约了APU的游戏性能,能到达这样的效果就已经是奇迹了!”

Johnny:“在ZOL,有个叫1964qsy的家伙,在帖子《推土机继承AMD的光荣传统,将开核进行到底》里说,3850APU相当于0.87个HD 5970,结果遭到围攻,哈哈哈”

George:“你别笑,按微软在《微软宣布C++ AMP全面支持APU异构计算》网页里展示的测试表明,确实如此!”

Johnny:“我还就不信了,HD5830有1120个SP,还干不过APU3850里的400个SP!”

George:“我倒是觉得有可能。”

Johnny:“那,你给我一个令我信服的理由!”

George:“那,我就试一下,给几个令你信服的理由。目前,CPU可以通过PCI-E2.0总线调用GPU,但,在实际工作时,CPU和GPU都不知道对方干了些什么——既所谓的CPU和GPU相互黑箱化,CPU和GPU都是等待对方完成相应处理后,再去完成程序交给自己的任务,这就构成了CPU和GPU的串式任务模式。但,CPU和GPU在等待对方完成任务时,都必须得维持高速状态。这就造成大量资源的浪费。”

Johnny:“这和APU异构计算有什么关系啊!”

George:“APU异构计算就是要结束这种CPU和GPU间的相互黑箱化状态,使CPU和GPU之间“透明化”,从而使CPU、GPU并行计算得以实现。假如一个游戏一半的任务需要CPU去完成,另一半由GPU去完成,那么,从理论角度,CPU和GPU并行处理就比串式处理效率高一倍!”

Johnny:“就算如此,400SP的APU也就相当于800SP,怎么会出现400sp的APU是1120sp的HD5830性能的2.31倍?你如何解释啊。”

George:“还有一个因素。因为CPU和GPU间的信息通过PCI-E传递,至少要花费2纳秒!在这至少2纳秒的等待期,频率为3G的多核CPU(时钟周期为1/3纳秒)能吞吐多少指令? GPU又能吞吐多少指令?但,APU里的CPU和GPU融合在一起,传输路途上耗费的时间可以忽略不计!”

Johnny:“若果真如此,那差距可就大了!”

George:“还有影响更大的一个因素!!!造成在充分的优化下,APU的运算速度比总线连接的CPU+GPU快很多。比如现在你要显示一个怪物在游戏场景中,你首先要从硬盘读取数据到内存——然后在内存中进行加工(比如更换武器装备模型、设定怪物出现地点神马的),然后把他从内存转移到显存,然后在显存里渲染,然后更新内存数据,实现同步。这复杂的套路造成了很多的性能损失,执行效率非常低下。而在APU中根本不存在这问题,因为内存即显存,显存即内存,谁适合计算谁就来算,这无疑大大提高了计算效率,节约总线传输耗时,相互等待的情况也更少,这样游戏执行效率非常高!”

Johnny:“若果真如此,那差距可就太大太大了!!!!!!!!!!!”

George:“是的!由于APU占有上述三个方面的优势,那么在APU加强优化其内存控制器性能和游戏充分优化的前提下,APU的400sp的游戏性能超过显卡的2000SP甚至2800SP,是完全有可能的!!!”

Johnny:“我的上帝!我知道为什么英威达逃到ARM那里去了。”

George:“是呀,没有x86指令集授权,英威达没法玩了。”