全球同步发布代码名为Caneland的高端4路平台是英特尔在2007年的重大事件,它意味着英特尔在4路服务器处理器产品上完成了向酷睿微架构的转 换,并将会同合作伙伴在多路服务器市场上有更多建树。在英特尔Caneland平台面世前一周,本报记者来到位于上海紫竹科学园的英特尔服务器测试实验 室,与英特尔技术专家交流了新平台的技术实现及第二代I/OAT(I/O加速技术)、虚拟化和能效评测等方面的相关细节。
Caneland接棒Truland
这 并非是英特尔首次推出4核至强处理器。此前,英特尔曾推出基于单路和2路的4核处理器。9月6日推出的Caneland平台包括的Xeon 7300系列 处理器则是业界推出的首款面向多路的4核处理器。从Xeon 7300系列开始,英特尔未来的所有服务器处理器都将采用更高能效的酷睿微架构,从而支持更 高密度的数据中心部署,Caneland正式接替Truland。
英特尔产品技术工程师黄菁介绍,Caneland平台不仅 实现了微架构迁移,还从平台层面融合了一系列最新的前沿技术,以便能够应对对数据要求苛刻的企业应用和虚拟环境中的服务器整合。依然采用mPGA604封 装的Xeon 7300系列由两个原生2核组合封装而成,采用内部总线传输数据并共享二级缓存。据英特尔内部测试,相比Xeon 7100系列, Xeon 7300系列的能效表现提升了125%,同时还进一步控制了能耗:用于刀片服务器的处理器TDP(热设计功耗)为50瓦,机架式服务器处理器 TDP为80瓦,性能优化型处理器的TDP为130瓦。
与上一代平台采用的TwinCastle芯片组相比,Caneland平台采用的 Clarksboro北桥芯片的前端总线变化明显。Clarksboro芯片改为在每颗4核芯片与芯片组之间使用专用的连接通道,提供了4条 1066MT/s的前端总线,即系统中的每颗处理器都有独立的高速总线。这改变了以往双独立总线架构要求每两颗处理器共享芯片组连接,造成带宽不足的弊 端。
Clarksboro芯片组还整合了容量为64MB的探听过滤器。它可以看作是包含处理器所有数据信息的特别缓冲器。要确保多核处理 器缓存的一致性,Caneland平台的单颗2核处理器必须注意另一颗2核处理器的总线情况,探听过滤器就是要减少处理器总线发生数据堵塞的情况。出现高 速缓存未中时,探听过滤器将拦截探听,如果读取请求同一总线上的另一个处理器得到满足,则取消探听过滤器访问;如果没有得到满足,访问结果将确定是否进行 下一操作。经内部测试,与以往的使用转发器相比,探听过滤器在4路系统上可以提升10%~15%的性能。
配置FB-DIMM内存也非常值 得关注,这项新技术能够同时增强内存吞吐率、带宽、容量和可靠性。与采用DDR2-400内存的前代E7520芯片组平台相比,FB-DIMM技术能提供 4倍的内存容量(64GB)和3倍的最高带宽(采用1333MHz系统总线,速度为21GB/s)。当安装8GB DIMM模组时,Caneland平台 最高可配置256GB内存。
I/OAT技术进化
近几年网络迅速发展,语音、视频、游戏等网络应用导致I/O负载压力急速增大。伴随着虚拟化应用日益普遍,据统计,20%的服务器都开始采用虚拟化技术。当我们在虚拟机上同时部署多个应用时,势必会给I/O造成越来越大的压力。
英 特尔在2006年推出Bensley平台时,便推出了I/OAT解决方案。它的出现,就是为了解决I/O负载量过大的问题。从技术实现的角度来看, I/OAT是如何工作,解决与基于TCP/IP的通信相关的系统级瓶颈问题呢?英特尔产品技术工程师邓立向记者做出了如下解释。
与数据传 输的路径相同,I/OAT是从网卡到芯片组、CPU的平台化解决方案。在采用这一技术的网卡部分,可以实现数据到达后的分块以及头部的分离与处理,以此来 实现数据加速的过程。芯片组则内嵌了一个DMA(直接内存存取)数据加速引擎,数据可以不通过CPU而直接进行数据打包、卸载以及内存提取。DMA引擎帮 助芯片组直接承担起网卡和内存数据交换的重任,这样就减轻了CPU不必要的负担,可更快地移动数据。处理器加速,也主要是针对七层协议,如TCP打包、封 装等操作进行的,这部分加速提供了为英特尔架构优化的协议堆栈,以改进数据访问。以上三者共同构成英特尔的数据加速技术。BIOS和操作系统也已经充分释 放了I/OAT的能力。
在Caneland平台上,I/OAT发展到了第二代—I/OAT2,并将在后续推出的其他平台也装备。新技术有益于增强数据中心网络I/O的性能,主要从多端口10GbE、虚拟化、网络存储、应用快速响应、附加协议等方面来实现。
I/OA T2 在原有基础上增加了直接DCA(高级缓存访问)的工作模式,这是一项快速响应、增强性能的新特性。通过网卡传送进来的数据包如果是小包,DCA将直接把这 些包送到缓存当中;如果是大包,DCA无法直接提取,它将协同DMA工作,一起把数据包传送到高速缓存。DCA的意义在于,数据包尽可能采用最近最快的途 径,进入CPU的高速缓存中被优先访问,这将极大降低CPU的数据存取延迟。
为了给服务器整合及虚拟化提供高性能I/O,I/OAT2也 做出了重大改进,目的就在于破除VMM软件层软交换机在数据交换时带来的瓶颈,减少网络拥塞和延时。这就是英特尔在新一代网卡中推出的另一项技术VMDq (虚拟机设备排列)。从网络上传送过来的数据包是杂乱无章的,没有VMDq之前,这些包是直接通过网卡到达软交换机,经分别整理处理后送到虚拟机。这就给 给软交换机造成了非常大的负载压力。采用了VMDq后,数据包在送达软交换机之前,已经被依照虚拟机的需求分别排列成不同的组,只需要软交换机简单处理后 就直接传送,极大提高了数据传输的效率。
虚拟化支持提速
英特尔是虚拟化坚定的推动者。通过这项技术,用户的IT环境可以被改造成更强大、更具弹性的架构。
数 年前,x86平台还没有硬件支持虚拟化,甚至连指令集都不是为虚拟化而设计,这时主要靠纯软件来实现虚拟化。这就遇到了一些难题,比如CPU的优先级问 题、设备管理问题等等。软件厂商当时只能通过代码转换等技术手段去绕开这些麻烦,无形中降低了虚拟化的运行性能。直到英特尔推出虚拟化技术,将虚拟环境中 的复杂软件操作融入到硬件层面。
英特尔产品工程师南波向记者展示了英特尔虚拟化技术的发展路线图。从软件层面进行虚拟化部署之后,英特尔 首先在处理器层面支持虚拟化(至强VT-x和安腾VT-i),并逐渐扩展到其他设备,虚拟化也就从纯软件逐渐深入到处理器级,再到平台级乃至I/O级。对 于关注I/O性能的企业级应用而言,完成了处理器虚拟化和I/O虚拟化,整个平台的虚拟化过程就基本完成了。
这里最值得注意的是将在Caneland平台I/O级上运用到的核心技术VT-d。这是一种基于北桥芯片的硬件辅助虚拟化技术,通过在北桥中内置提供DMA虚拟化和IRQ虚拟化硬件,实现了新型的I/O虚拟化方式。
=I/O 虚拟化的关键在于解决I/O设备与虚拟机数据交换的问题,而这部分主要相关的是DMA及IRQ中断请求。成功的I/O虚拟化需要解决好这两方面的隔离、保 护及性能问题。I/O虚拟化需要正确分离这些I/O设备产生的中断请求,并送到不同的虚拟机上。传统设备的通过DMA写请求直接发送出去的MSI(消息中 断),需要在请求内嵌入目标内存地址,完全访问所有的内存地址并不能实现中断隔离。VT-d通过重新定义MSI格式解决了这个问题。新的MSI形式不变, 但用消息ID取代了目标内存地址,通过维护表结构,硬件可以通过不同的消息ID辨认不同的虚拟机区域。
VT-d最终体现到虚拟化模型上,就是新增了虚拟机直接分配物理I/O设备给虚拟机以及I/O设备共享两种设备虚拟化方式,以此来代替传统的设备模拟/额外设备接口方式,从而提升了虚拟化的I/O性能。