青岛土特产的资料:返璞归真:酷睿处理器全面解析1

来源:百度文库 编辑:九乡新闻网 时间:2024/05/03 08:07:47
返璞归真:酷睿处理器全面解析 

奔腾III
   1999年1月问世的奔腾III处理器是P6家族的第三代产品。奔腾III家族除了主角奔腾III以外,同样包括至强和赛扬两大分支。奔腾III历经了三代核心演变,每一代的改进都很大,性能提升也很明显。最早的奔腾III核心代号为Katmai,其实就是100MHz外频的奔腾II+SSE指令集,后期则推出了133MHz的两款型号,随即让位给Coppermine奔腾III。Coppermine核心是对P6架构的一次发扬光大,它的改进不仅仅在于采用了0.18微米工艺,而是在核心上大刀阔斧的改进。Coppermine基本核心设计思路和Katmai奔腾III一致,但是大大扩展了数据通道,是Katmai的四倍。此外Coppermine奔腾III继承了奔腾Pro/赛扬的优良传统,将二级缓存集成在处理器核心,以和处理器工作主频相当的速度运行,再加上二级缓存数据通道的拓宽(从Katmai的64位拓宽到了256位),缓存延迟时间的缩短,因此同主频下Coppermine的性能明显好于Katmai。除了L2 Cache外,英特尔还在Coppermine中增加了填充缓存、总线队列入口和写回式缓冲区,可以避免写入较慢的内存或读入多重内存区域数据时,主存储瓶颈给CPU造成的延迟,在133MHz总线上预读取带宽扩充到680~1000MB/s后,将会有效地解决此类问题。

    奔腾III的最后一个核心是Tualatin。Tualatin采用0.13微米工艺制造,是P6家族值得让人怀念的经典产品。Tualatin对Coppermine的改进不算太大,最大亮点就是Tualatin采用了四倍Quadword Wide缓存数据总线,而Coppermine是两倍Quadword Wide缓存数据总线。缓存数据总线越宽,缓存传输率和读写效率就越高,对处理器的性能提升有很大帮助。Tualatin的桌面版本具有256KB二级缓存,服务器版本和移动版本则具有512KB二级缓存。移动版本的Tualatin就是奔腾III-M,它是迅驰移动计算技术问世以前,奔腾4时代轻薄笔记本电脑中的王者,是奔腾M处理器的雏形。奔腾III-M可支持增强的英特尔SpeedStep技术,这种技术能够根据处理器上的应用需求自动切换最佳性能模式和电池优化模式,从而在性能和功耗之间达到最佳平衡。此外,这种处理器采用了英特尔公司新研制的封装技术,使PC机制造商得以生产出更轻更薄的笔记本产品。全新的更深度睡眠模式(Deeper Sleep)能够比原来的低能量睡眠模式进一步降低能耗,延长电池使用时间——即使在运行应用程序的时候,也可以达到仅0.2W或者更少的耗电量。采用奔腾III-M处理器的笔记本至今仍活跃在二手市场,足以轻松应对目前的主流计算需求。

    在2003年初问世的迅驰移动计算技术平台中,最引人注目的就是代号为Banias的奔腾M处理器。与以往英特尔的高调宣传做法不同,英特尔对奔腾M的技术架构不愿多谈,只是强调它是迅驰移动平台的组成部分,设计的出发点就是追求低功耗、低热量、体积小。但是行家们很快就从英特尔羞答答拿出的奔腾M内部架构资料中看出,奔腾M其实还是P6家族的一员,更确切地说,奔腾M就是以Tualatin奔腾III-M为设计蓝本,同时吸取了NetBurst架构奔腾4的一些长处而设计出来的“超级奔腾III-M”。

    奔腾M的基本核心架构仍然一如P6架构,那就是由整数运算单元、浮点运算单元、一级缓存和二级缓存组成。吸取了奔腾III由于流水线运算管线过短而带来的主频提升困难的教训,奔腾M加长了流水线运算管线,从奔腾III的10级增加为12级。这样做的好处不仅使主频的提升变得容易了很多,同时又不会明显降低处理器在单个时钟周期的指令执行效率。

    奔腾M处理器支持增强型英特尔SpeedStep技术的改进版本。英特尔公司对SpeedStep技术所做的改进包括多电压和频率工作点,它们受到操作系统的动态控制。由于在这些多频率工作点之间的过渡中包括一个电压过渡,因此电能消耗将会得到优化,降至最低,达到在该频率下进行操作所需要的最小能耗。新版本与目前的增强型英特尔SpeedStep技术的区别在于多工作频率和电压点。目前的版本只有两个不同的电压和频率组合。多中间组合的优势在于其极为优异的性能和能耗比。

    高级指令预测是一项崭新的应用技术。奔腾M使用多个多分支预测器,能够降低系统的整体执行时间,利用更低功率实现更优异的性能。

    奔腾M身上所采用的IMVP4是一种电压定位技术。它与早期版本有所不同,能够实现更精细的间隔尺寸,支持改进了的增强型英特尔SpeedStep技术的中间工作点。而且它完全由中央处理器支持,不需要芯片组支持。IMVP4已为支持改进增强型SpeedStep技术进行了优化。它的电压过渡分辨率更高,使奔腾M处理器睡眠或更深睡眠时电压更低。它还实现改进的增强型英特尔SpeedStep技术的中间工作点之间的过渡。

    Banias奔腾M的二级缓存容量从Tualatin奔腾III-M的512KB提升为1MB。奔腾M缓存的设计包括更低的静止消耗能量,它降低了处理器整体能耗。另外在奔腾M处理器里加入了PSI(功率状态指示器),它是奔腾M处理器上的一个管脚,在芯片组与奔腾M处理器核心之间起到沟通作用,自动地向中央处理器电压调节控制器发出信号,从而改变电压调节状态。

    Banias奔腾M的晶体管数量为7700万个。作为多媒体扩展功能,与奔腾4一样支持单一指令多数据流扩展指令集SSE2。Banias奔腾M处理器采用与奔腾4-M相同的400MHz前端系统总线设计思路,数据传输带宽为3.2GB/s。

    Dothan核心的奔腾M是对Banias奔腾M的改进和升级。Dothan奔腾M的核心技术架构类同于Banias奔腾M,但由于集成了更大容量的二级缓存,因此核心集成的晶体管数量差不多是Banias奔腾M的2倍,达到了1.4亿。改进之处在于:Dothan奔腾M采用90纳米工艺制造,并且首次采用应变硅;Dothan奔腾M的二级缓存容量增加到2MB;Dothan奔腾M的外频为100MHz/133MHz,对应的前端系统总线频率分别为400MHz/533MHz;Dothan奔腾M改进了寄存器访问管理器以及数据预测功能。我们都知道,IA-32架构遗留下来的问题是大多数32位处理器的寄存器都可以分成4个8位寄存器或者2个16位寄存器,而增强型寄存器访问管理器的作用就是在这些模式转换时提供更低的消耗。而增强型数据预测功能则在数据读取到二级缓存过程中提供更好的命中率,如果处理器可以较少的重复从内存中读取数据到缓存,则同样可以降低处理器功耗。

正传:酷睿微处理器的今生
    在今年3月初问世的酷睿处理器,是英特尔处理器发展史上的一次转折。英特尔并没有使用延续了14年之久的奔腾来命名这款被英特尔寄予厚望的产品,而是重新为它起了一个响亮的名字:酷睿。但若是有人认为酷睿是一个全新微架构的话,那就大错特错了。尽管英特尔给酷睿所采用的技术架构命名为“Core微架构”,但是酷睿处理器依然是P6家族的一员,和其先祖奔腾Pro有着一样的血脉传承关系。酷睿的发布意味着古老的P6架构重获新生,奔腾4所采用的NetBurst微架构将全面隐退,此前依靠奔腾III-M和奔腾M的存在,仅在移动计算领域保有一席之地的P6微架构全面复兴。这是因为酷睿处理器的市场地位就是占据从高端服务器到主流桌面/移动应用领域的全部空间。尽管第一代酷睿仅仅出现在移动计算领域,但它的问世只是为酷睿2的发布进行的预热而已。

    酷睿和酷睿2的技术架构基本一致。二者拥有相同的解码流程,相同的简单解码单元与复杂解码单元相配合的设计;同样都采用乱序执行的流程,仍然沿用一级指令缓存与一级数据缓存分离的设计,沿用共享式二级缓存的设计,抛开解码单元与执行单元的数量、内部总线的宽度以及各个缓冲区的容量这些数值上的差异,二者在架构上的设计几乎是完全一样,酷睿2只是对酷睿进行了局部的改进而已,所以接下来会将二者一起介绍。

    除了完全承袭了奔腾M的微指令融合技术以外,酷睿还具备超强的四组指令编译器,这也正是酷睿的最大特色。采用四组指令编译器,酷睿可在单一频率周期内编译四个x86指令。四组指令编译器的设计思路还是承袭P6架构的传统,由三组简单编译器(Simple Decoder)与一组复杂编译器(Complex Decoder)组成。

    酷睿处理器的另一个技术亮点就是数据预读取技术。这也是早在Tualatin奔腾III身上就出现的新型技术,可以有效弥补缺乏内存控制器、导致内存存取延迟较长的缺憾。数据预读取技术可在处理器将数据回存内存的同时,预测后继的加载指令是否采用相同的内存地址。如果不是,就可立即执行加载动作,无须等待该回存指令,这可大幅改善乱序执行(Out-Of-Order Execution)核心的效率,并缩短存取内存的延迟。

    而增强的“预先加载机制”则可满足第二项要求。Core微架构每个核心分别内建一组指令及二组数据预先抓取器,而共享的二级缓存内建两组、可动态分配至不同核心的数据预先抓取器,可根据应用程序数据的行为,进行指令与数据的预先抓取动作,让所需要的内存地址数据,尽量存放在缓存中,减少读取内存的次数。

    酷睿的电源管理机制基本上改良自图拉丁奔腾III-M与奔腾M的设计,即处理器内各功能单元并非随时保持启动状态,而是根据预测机制,仅启动需要的功能单元。不过在酷睿上新采用的分离式总线(Split Buses)、数字热感应器(Digital Thermal Sensor)以及平台环境控制接口(Platform Environment Control Interface)等技术的实际效果,要比以往模糊的省电效果实在得多。

    温控方面,英特尔在酷睿处理器中最容易发热的位置放置了数字热量传感器(Digital Thermal Sensor),通过专门的控制电路,监控处理器的发热量以及运作模式,然后动态调整系统电压、系统风扇转速。

    酷睿处理器是首个采用共享式二级缓存设计的双核处理器,酷睿2继承了这个极富创新性的设计,2个核心共享4MB或2MB的256位二级缓存。酷睿内核采用14级流水线运算管线设计方式,略长于奔腾M的12级。酷睿处理器的每个核心都内建32KB/256位一级指令缓存与32KB 256位一级数据缓存,而且2个核心的一级数据缓存之间可以直接传输数据。每个核心内建的4组指令解码单元支持微指令融合与宏指令融合技术,每个时钟周期最多可以解码5条X86指令,并拥有改进的分支预测功能。酷睿的每个核心内建5个执行单元,执行资源庞大。

    英特尔初期发布的移动版酷睿2处理器即Merom,其前端总线均为667MHz,这是为了迁就Napa平台而做出的权宜之计。今后出现的Santa Rosa平台上的移动版酷睿处理器,前端总线会提升至800MHz。Merom的二级缓存则加大为4MB(低端的T5000系列仍为2MB),意味着缓存中可以寄存更多等待处理数据,减少处理器与内存以及外围设备间数据传输的瓶颈,提高指令的命中率,大大提高执行效能。

    总体来看,酷睿处理器拥有双核心、64bit指令集、四组指令编译器结构和乱序执行机制等技术,使用65nm制造工艺生产,由于加入EM64T指令集的支持所以能够支持36bit的物理寻址和48bit的虚拟内存寻址,支持包括SSE4在内英特尔所有扩展指令集。Core微架构的每个内核拥有32KB的一级指令缓存、32KB的双端口一级数据缓存,2个内核共同拥有4MB或2MB的共享式二级缓存。
酷睿既然是基于P6架构,因此也有P6架构的缺点,比如说工作主频无法像奔腾4那样狂飙。P6家族处理器的工作主频提升,很大程度都是依赖制造工艺的改进,而不是加长运算管线。在45nm工艺采用之前,酷睿的核心频率很难超过3GHz。
总之,酷睿的发布,P6微架构的回归对业界影响深远,因为它代表着这样一种思路:即在降低能耗的前提下,追求最大化的性能,而并非过去的“唯主频论”。

    自从酷睿2处理器问世以后,英特尔的微处理器市场蓝图经历了一次翻天覆地的变化。和酷睿处理器专注于移动计算领域不同的是,酷睿2是全方位出击,产品线扩大到服务器和桌面计算领域。在这些领域占据主流位置的NetBurst架构微处理器将停产并逐步退出,最终让位给酷睿2处理器。

    不过就目前而言,笔记本平台的奔腾M和酷睿的存在都为酷睿2的普及造成了一定的影响。同样基于P6微架构,奔腾M的性能虽然无法和酷睿2抗衡,但基于这一平台的笔记本产品价格已经跌到了低谷,加之笔记本从来都不是以性能为最大卖点的产品,所以还是有很多用户会考虑基于奔腾M的笔记本;而且目前的酷睿2处理器都是过渡产品,如前所述,它是为了迁就现有的平台,前端总线只能设计到667MHz,相比酷睿并不占优势,在性能上也未能比酷睿有明显提升,加之英特尔对旧产品的降价策略,可以想象酷睿/酷睿2还将并存一段时间,直到采用800MHz前端总线的酷睿2问世为止。相比AMD,英特尔在移动计算平台本来就具有压倒性的优势,这一优势自从迅驰移动计算技术问世以来就一直没有变过,现在再加上对奔腾M有了历史性突破的酷睿平台,AMD的处境更加艰难。即使AMD有更好更强的产品发布,也无力在短期内扭转在移动计算平台的不利地位。

    从大趋势来看,酷睿2的技术特性在一定程度上代表了未来笔记本的主流发展方向,这一点是毋庸置疑的。

酷睿和酷睿2处理器一脉相承,有着密切的血缘关系。但是二者之间也有一些区别,列举如下:
▲第一,酷睿2的流水线运算管线是14级,酷睿的流水线运算管线是13级。增加流水线运算管线的长度对提升处理器工作频率有一定作用;
▲第二,二级缓存的访问入口,酷睿2已经从酷睿的8路提升到16路;
▲第三,在解码器方面,酷睿2比酷睿增加一个Simple解码器,使得解码效率进一步提高;
▲第四,指令集方面,酷睿2添加了SSE4指令集以增加执行效率;
▲第五,执行单元方面,酷睿2比酷睿多出一个FPU和一个IEU(ALU),在一个时钟周期;
▲第六,酷睿2可以向执行单元传输3个微指令集,而酷睿只能传输2个;
▲第七,酷睿2的传输通道从酷睿的64位升至128位,执行一个SSE3指令只需要一个时钟周期。