前言
对于Intel和AMD这样的通用型处理器厂商而言,既要考虑台式机、笔记本等个人用户的市场需求,也需要考虑服务器市场的需求。因此,为了避免设计、生产和成本上的重复,就有必要设计出一套“放之四海皆准”的处理器微架构。
AMD由K7向K8迈进,便是为了主攻服务器市场,K8放弃了K7的共享式前端总线架构,同时在继承K7单核架构的基础上进行了有力的内部改良,获得了不小的成功。然而K10由于在单核执行效率上不思进取,因此在单处理器市场被对手的Core微架构打得节节败退。而Intel的Core微架构也并非无懈可击,众所周知,Core微架构源于笔记本平台,虽然单处理器效能强劲,同时又具备良好的省电性能,因此受到单机和笔记本用户的青睐。但由于一直采用老旧的前端总线来连接多处理器,因此在以多处理器为主要诉求的服务器市场就显得有些被动。
为了改变这种状况,重新在多处理器服务器市场上站稳脚跟。Intel终于放弃了前端总线结构,拿出了新一代集成了内存控制器和QPI点对点连接的微架构。与此同时,为了兼顾到桌面与笔记本市场,Core i7(酷睿i7)也对微内核内部架构进行了增强和调整。而对超频者而言,这些较大的改动,也使Core i7的超频体验变得与过去超频酷睿2有很大的不同!
幸运的是,我们在Core i7正式发布不久,便拿到了一块Core i7 EE 965处理器(至尊版)和Intel DX580SO主板。以下,便与大家共同体验Core i7的风采!文章共分为三个部分:
第一部分详细地介绍了Core i7在系统架构与内部架构上的变化;
第二部分则通过实际超频,介绍了Core i7在超频方法上的变化;
第三部分则测试了默认状态下的Core i7系统的性能。
本次测试得到Intel、ATi、金邦、宇瞻等硬件厂商人员的大力支持,本地商家方面,金邦售后服务中心、三灵电子、恒泰科技、敏威科技以及永嘉成科技等也给予热情的支持,在此一并予以感谢!新架构带来新玩法:Core i7超频小试(4)
经过调节,我们最终使用原配散热器,没费什么力就将Core i7 EE-965处理器超到了200X21=4.2GHz左右的水平,超频幅度达31%左右。运算Super PI 1M的成绩达到了惊人的9.719秒!如果使用酷睿2处理器,需要超频幅度达到50%以上的4.7G左右,才能得到类似的成绩。
Super PI的运算结果,与处理器的单核效能、内存与缓存系统的延迟与带宽都有相当大的联系,而Core i7相比酷睿2在这两个方面的提升,也通过Super PI测试给我们留下了深刻的印象。
另外,通过对Core i7的超频实践,我们也发现,相比酷睿2而言,新处理器的超频显得更为复杂,现在超频需要考虑的不仅仅是主频和外频的提升,还要考虑内存频率及内存带宽的影响。默认测试配置说明
毕竟更多用户还是更习惯在默认状态下使用处理器,因此在我们的超频体验结束后,还安排了Core i7 EE-965的默认状态测试。测试中Intel的DX580SO主板,金邦与宇瞻的DDR3 1333内存,以及两块耕昇4850张飞版所组成的交火显卡系统组成了我们的测试平台。具体的测试配置如下:
本次测试全部在Vista SP1环境下进行。软件方面主要分四个部分,依次是测量系统综合性能的PCMark Vantage测试;测试多媒体创作性能的Cinebench R10、POV-RAY测试;测试游戏综合性能的3DMark2006/Vantage测试;以及测试游戏实际性能的Crysis: warhead/Farcry2。
默认测试:系统综合性能
这一部分主要是使用老牌测试厂商Futuremark的最新综合性能测试软件PCMark Vantage来进行测试,以下是测试结果:
默认测试:多媒体创作性能
这一部分主要是使用支持超线程SMT的多媒体创作软件Cinebench和POV-RAY进行测试,以下是测试的结果:
默认测试:游戏综合性能
这一部分主要使用3DMark2006与3DMark Vantage进行测试,以下是测试的结果:
默认测试:实际游戏性能
实际游戏方面,我们选取了最新上市的Crysis: warhead与Farcry2这两款大作来进行测试,以下是测试的结果:
总结与建议Core i7处理器的面市,以其全新的微架构,为Intel处理器阵营又增添了一员虎将。新架构很好地满足了上至服务器下至个人电脑的需求。服务器方面,集成的内存控制器和全新的QPI接口大幅改善了多处理器交换数据的效率;而个人电脑方面,大幅改良的内部微架构也使处理器面对多媒体任务、游戏等应用时更加得心应手。而重新回归的SMT技术则最大限度的发挥了多核系统的执行效率。
可超性方面,新架构带来了全新的超频思路,比较酷睿2而言,Core i7的超频能给玩家带来更多挑战性和更高的可玩度。而即使是在一般的散热条件下,超频幅度也可以达到20-30%左右。解开了超频爱好者们心中原有的重重顾虑。
但任何事物都有其反面,Core i7唯一的遗憾,恐怕便是由于微架构变化较大,由此带来较高的升级费用问题。用户必须一次性升级内存、主板、处理器。所幸该产品目前主要面向高端用户。预计到明年下半年采用新微架构的主流产品(Core i7的弟弟妹妹们)上市之后,系统的价格才会有所下降。Core i7硬件精美图赏(1)
Core i7硬件精美图赏(2)
DX58SO硬件精美图赏(1)
DX58SO硬件精美图赏(2)
过去,Intel处理器只能使用并行的前端总线通过北桥与外界交流,这种总线依然采用老旧的AGTL+信号技术。不但总线频率难以提高,同时也容易在多处理器场合引起处理器—北桥—内存的通路,由于信息传输过于繁忙而阻塞。更糟的是由于需要经过北桥访问内存,因此内存读写的延迟较大。Core i7中则将处理器分为内核外核两部分,内核部分包含执行核心及其专属的一级、二级缓存,外核部分则包含共享式三级缓存、集成的内存控制器IMC、QPI接口以及功耗、频率控制部分。集成的内存控制器将直接与专署的内存交换数据,而由于北桥中不再含内存控制器,所以原来MCH(Memory Control Hub)的名称也改为IOH。而QPI接口则替代前端总线来与其它处理器和北桥进行连接。
新集成的内存控制器将支持最大三通道配置的DDR3内存子系统,显著减小内存传输延迟,并且比原有的双通道配置增加最大高达3倍的传输带宽!
而另外一个接口:QPI传输带宽方面,我们将Core i7的QPI与酷睿2的并行前端总线、以及K8、K10的Hyperstransport接口进行了比较,如下表:
经过这种设计,不但大大减小了内存延迟,而且也充分缓解了多处理器场合下总线带宽不足的情况。再配合高效执行的内核,不论对于桌面、服务器系统,都有重大的意义。
同时,由于采用内外核的模块式设计,因此可伸缩性十足,可以根据需要增减QPI的数量,比如我们手上的这颗Bloomfield核心Core i7 EE-965便有1个QPI接口,而工作站、服务器领域的Bloomfield-EX核心则会有2个QPI接口。有关Core i7可能派生的各种型号,在我们以往的这篇《Nehalem规格总结与处理器实物展示》中,已经对基于Nehalem的四种变型作了介绍,需要了解的朋友可以点击链接查看。加入共享式三级缓存
另外,与上一代处理器有明显不同的地方,是在Core i7的缓存设计上。在上一代酷睿2处理器中,采用的是各个核心独享一级缓存,共享二级缓存的设计方案。而在Core i7上则改变为一、二级缓存独享,三级缓存共享的设计方案。
容量方面,独享的一级指令、数据缓存仍与酷睿2一样,为32/32 KB,读写延迟比酷睿2的3周期稍慢,约为4周期,不过Core i7更优秀的内存读写延迟可以较好地弥补;二级缓存部分,每个核心独享256KB容量,读写延迟约12周期。三级缓存部分则为共享式,容量8MB,读写延迟约30-40周期。
虽然都使用了三级共享式缓存,但与AMD的K10有所不同的是,Core i7的三级缓存采用inclusive(内含式)设计。也就是说在各个核心的一级、二级缓存中的数据,在三级缓存中都会进行保存。而AMD的K10则采用Mostly exclusive(非内含式)设计,一级、二级缓存中的数据并不常在三级缓存中进行备份。
以上是我们使用Everest对Core i7 EE-965所进行的缓存-内存子系统带宽、延迟的测试,由测试结果可见,内存部分的带宽都得到显著提升,延迟明显地减少。
除了新的三级缓存之外,用于快速检索内存的TLB缓存部分也做了大量改良,如增加缓存容量、采取真正的两级式结构,增加用于SMT技术的虚处理器ID标志位等措施。充分保证增加了三级缓存,并采用SMT技术后仍能保证核心的高效运转。SMT技术重新回归
在奔腾4时代,Intel便推出了超线程技术,这项技术允许将一个真实处理器核心模拟为两个虚拟核心,这样在理想的条件下,处理互不冲突的多线程任务时,便能充分利用每个核心中的空闲执行单元。
但是在酷睿核心中,Intel并没有继续采用这项技术。如今发展到Core i7,Intel又重新开始采用超线程技术的升级版:SMT。
四核心的Core i7 EE-965开启SMT技术后使用任务管理器观察可以发现系统中增加了4个虚拟核心。在Core i7上,由于处理器具备更高的内存带宽和更大的缓存容量,同时内核部分又根据SMT的特点进行了增强设计,因此应用起SMT来将更加得心应手,更容易获得性能的提升。根据测试,开启SMT技术后的Core i7性能提升可在7~34%左右。内核微架构也得到进一步强化
采用新的微架构、增加缓存容量并启用SMT技术,虽然可以起到显著增强多处理器执行效能的作用。但酷睿2当年受欢迎的场面告诉我们,如果一款处理器的设计过多考虑多处理器执行效能,而不能在对游戏等个人应用更有意义的单核效率上比过去有明显的提升,那么它将难以避免的面临尴尬的境地。
有此前车之鉴,在保留Core微架构总体上不变的基础上,除了增加三级缓存,并对TLB结构进行改良之外,Intel还在Core i7中对影响单核效能的内部微架构进行了许多有力的改良,现简要概述如下:
1、前端的分支预测机构方面,改用两级式分支目标缓存(BTB)结构,并改良了用于子程序调用时快速查找返回地址的返回地址栈(RSB)机构。此外,Core i7还将扩容后的循环流检测器(LSD)首次放到了解码器的后方(在酷睿2中LSD被放在解码器前面),这样在性能和耗电方面都有实际意义;
2、前端的指令解码部分,Core i7继承并发展了酷睿中的宏融合技术,现在宏融合技术在32位/64位两种模式都可以发挥作用,并可以将更多的指令融合为一条微操作,无形中增大了解码带宽;
3、乱序执行引擎的指令调度部分,指令队列缓存、载定序缓存ROB、保留站RS等部件的容量比酷睿都得到进一步扩展,并且根据SMT的需要进行了一些调整;
4、此外,为了改善存储、网络文件和字符串处理的效能,Core i7中还增加了由7条新指令组成的SSE4.2扩展指令集。
这些改良不但有利于增强处理器的单核效率,而且还兼顾了SMT的需求,确保Core i7立于不败之地。一体化的频率功率控制
最后,在Core i7的外核中集成了PCU单元,可以单独控制内核各个核心的频率、电压,并且还可以负责监控核心温度。
将供电控制放在内核中,再配合新COMS材料的使用,使Core i7可以进一步减小休眠状态下的漏电流。而频率控制功能的加入,则使各核的频率与功耗控制更加灵活,可以根据实际的运行状况配合操作系统进行更精确的电源管理,做到既节省了电能,又不至于使性能过分降低。
而由此设计出智能加速技术(Intel Turbo Boost Technolgy, 也就是Turbo Mode)技术,则在省电高效的基础上,又大大增加了Core i7的可玩性。智能加速技术是在PCU和Intel旧有的Speedstep变频省电这两项技术的基础上产生的一种新技术。在BIOS中打开Speedstep和Turbo mode之后,我们可以自由地设定各个核心的倍频数。新架构带来新玩法:Core i7超频小试(1)
经过前面的说明,我们已经对Core i7的单核多核效率,以及其全新的微架构优势有了一定的了解。但多数高端玩家所关心的Core i7可超性,大家心中恐怕依然打着大大的问号。历史原因,过去AMD的K7到K8再到K10,由于内存控制器的加入而使可超性逐年下降,大家对此都已经有了较深的印象,那么集成了内存控制器的Core i7会不会也遇到同样的问题呢?
可以说Core i7的超频比过去酷睿2的超频有了较大的变化。由于集成内存控制器和QPI接口的加入,再加上Turbo Mode的引入,使Core i7的超频更具难度与趣味性。我们首先把超频过程中需要涉及到的频率与电压总结如下:
如上图所示,Core i7中虽然具备多种部件,但它们的频率都是以BCLK频率(有点类似与过去的前端总线频率)也就是133MHz为基准生成的。
在Intel DX58SO主板上,BCLK频率基准由133-250可调。CPU核心频率则可使用Turbo Mode技术由5-30倍频进行不同调节(非EE版可调倍频可能会有所缩小)。而IOH中包含的内存控制器频率则由BCLK乘12-30可调倍频而形成。DDR3工作频率则有BCLKx6/8/10/12四个档次可调。而IOH中的QPI接口频率,有BCLK x18/22/24三档可调。
而非至尊版的Core i7如940/920等,则可能无法随意调高处理器的倍频,只能调节QPI与DDR3内存的倍频。
这里需要注意的是Turbo Mode技术是以Speedstep技术为基础的,因此要想启用Turbo Mode的设定,不仅要设置好Tuebo Mode本身的设定,而且还要打开Speedstep功能,才能正常进入Turbo Mode模式。
电压调节方面,除了CPU核心电压和内存电压之外,IOH电压相当于过去的北桥电压,而QPI接口电压也是新增的可调选项。新架构带来新玩法:Core i7超频小试(2)
进入实际的BIOS设置过程,我们首先尝试不调节外频,而只对倍频进行调节。因此首先是处理器倍频的设置说明。简单地说,在Core i7 EE-965上,由于Maximum Non-Turbo Ratio最大只能调节到24倍频。因此要达到更高的倍频必需注意调节以下四处:
首先增加处理器的电压,推荐增加到1.525V左右;接着打开Turbo Mode并设置好需要超的倍频数:
再将Speedstep功能打开,如果以超频为目的,最好将这里其它的无关选项都关闭,如果以省电为目的,则保留原设置即可;最后,如果以超频为目的,那么推荐将CPU IdleMode设为“High Performance”,这样能避免超频时的不稳定;如果以节省电能为目的,那么推荐将其设为“Low Power”,再进入操作系统中的电源管理中设置好省电模式即可。
只超倍频的结果,是普通风冷极限停留在29倍频上,无论如何设置处理器电压,都无法超过30倍频稳定进入系统。新架构带来新玩法:Core i7超频小试(3)
接着我们将BCLK频率与倍频一起设置进行超频,如前面所说,由于BCLK频率是许多部件的基准频率,因此增加这个频率就必须对许多关联的选项进行设置。
首先找到Performance中的Host Clock Frequency,将其设置为需要超到的数值(默认频率为133MHz),我们这里设置为200MHz。接着将处理器倍频按上一节的说明设置为需要的数值,这里我们设置为21倍频;
接下来调节内存相关部分,将UCLK Multiplier(也就是我们前面所说的内存控制器倍频),和Memory Multiplier(也就是我们前面所说的DDR3内存频率倍数)分别设置为16和8,这样内存控制器和DDR3将分别工作在200X16=3.2GHz和200X8=1.6GHz下。
而后再稍微增加内存电压至1.54V,这里需要注意的是,由于这里设置的内存电压不仅是DDR3内存使用,而且还被提供给CPU内存控制器使用,而根据各方面的消息称其值超过1.6V将可能造成处理器内存控制器的永久损坏,因此我们这里不推荐增压到1.6V以上。
最后需要设置的还有QPI接口部分,将IOH Core Voltage Override增加到1.4V左右(默认1.15V),如有必要,再将QPI Voltage Override电压也增加到近似的电压(默认1.1V)。接着调整QPI Data Rate,原值为6.4GT/s,相当于24倍频,现在我们将它调整到4.8GT/s,相当于18倍频。
由于我们调整了BCLK,而它是CPU与内存几乎所有重要频率的基准频率,因此牵一发而动全身,需要对许多电压和倍频进行调节,以保证BCLK超频的成功。