分享
 
 
 

指令集的进步——MMX和SSE

王朝other·作者佚名  2006-01-08
窄屏简体版  字體: |||超大  

资料整理·飞意软件工作室-程序员网站

指令集的进步——MMX和SSE

如果一次只能做一件事情……

自最简单的计算机开始,指令序列便能取得运算对象,并对它们执行计算。对大多数计算机而言,这些指令同时只能执行一次计算。如需完成一些并行操作(如立体声左、右声道,或显示器的红、绿、蓝混合),就要连续执行多次计算。此类计算机采用的是“单指令单数据”(SISD)处理器。

然而,现实世界的大多数计算都会同SISD模型冲突。比如对麦克风传来的左、右立体声道进行简单过滤处理时,需将之前的几个采样值累加起来,再同当前值加到一起,再除以采样次数。必须重复计算左、右声道。下述C代码便是为这一目的设计的(假定采样值保存在left和right数组里,变量指向最新的声音采样值,而且要求出之前三个值的平均值):

int LeftSum,RightSum;

LeftSum=(left[now-2]+left[now-1]+left[now])/3;

RightSum=(Right[now-2]+Right[now-1]+Right[now])/3;

看来似乎颇为简单,但在实际应用中,每次采样都必须作同样的计算。如决定使用CD音质,那么每秒种都要对左、右声道执行44100次采样,总共便要计算88200次。为获得LeftSum和RightSum的结果,分别要执行6条指令。所以为确保获得连贯的CD音质,每秒钟要执行的指令总数为:44100次采样×2个声道×6条指令=529000条!

计算机显示的道理与此相似,但情况会糟得多——想想在1024×768的分辨率和24位真彩色下,假定每秒显示30帧(虽然好但非特别出色的3D加速性能),仅仅为了访问每个像素,而不做任何实际工作,每秒便要执行70778880条指令,这显然是个沉重的负担。

同时做几件事情会快得多……

再来研究一下上述两行C代码,你会发现除数据来源不同外(同样的指令应用于两个不同的数据流),两者几乎是完全一致的。设想一下,假如有这样的一种处理器,虽然它只能执行单个指令序列,但能将那些指令同时应用于几个独立的数据流,速度显然就会快上许多。我们称之为“单指令多数据”(SIMD)处理器。

MMX和SSE(Streaming SIMD Extensions)便是为此设计的——Intel为传统x86指令集增加了一系列新指令——在奔腾和奔腾Ⅱ里叫MMX,在Pentium Ⅲ里则叫做SSE,它们都能以SIMD方式处理数据。SSE其实就是我们早期的文章中曾提到过的KNI(Katmai New Instruction)指令,随着PⅢ的面市,KNI便正式定名为SSE了。

MMX指令可对整数执行SIMD运算,比如-40、0、1、469或32766等等;SSE指令则增加了对浮点数的SIMD运算能力,比如-40.2337,1.4355或877343226.012等等。利用MMX和SSE,一条指令可对2个以上的数据流执行计算。就前面的例子来说,再也不必每秒执行529000条指令了,只需执行264600条即可。因为同样的指令可同时对左、右声道发生作用。显示时,每秒也不需要70778880条指令,只需23592960条,因为红、绿、蓝通道均可用相同的指令控制。

MMX和SSE的作用还不止于此。假定颜色深浅在0到255之间变化(24位色深)。为显示出阴暗或照明效果,在调节光线强度时,这个值完全可能低于0或超过255。如果用8位保存,这两种情况就分别叫做“下溢”和“上溢”。显然,必须将值限制到0到255间,否则会产生混乱的显示。在没有MMX或SSE的情况下,必须在软件里对这种情况进行判断与纠正。但由于在指令中使用了跳转指令(jump),所以会明显减慢某些处理器的速度。而在MMX或SSE问世以后,只需用范围限制算法执行指令即可。值会被“强制”位于正确的范围之间,程序会流畅执行下去,用户感觉不出任何变化。

MMX不仅对游戏有用……

稍微探讨一下3D游戏,就会知道MMX为何没有带来游戏性能的显著提升,而SSE在这方面却有卓越表现。比如玩Quake时,3D物件均由多边形构成,而这些多边形以一系列点的形式保存。每个点(上接29页)都有对应的3轴坐标。如限制成只用整数,便不能精确地表示这些位置(如每个坐标轴使用16位,那么只能得到65536个坐标点),造成图形显示非常糟糕。自奔腾开始,Intel各型处理器的浮点运算能力便非常强大,游戏开发者几乎都情愿选用浮点运算。由于MMX不能对浮点进行操作(更糟的是,从MMX切换到浮点模式时,还会造成性能的瞬间剧降),所以MMX并不能将游戏提速至比设备驱动程序更高的一个水准,这正是MMX令许多人失望的原因。假如你用3D加速卡做图形渲染,游戏中完成的运算(模拟、3D变形、照明等)会耗去约90%的处理器时间。也就是说,MMX只为处理器留出了10%的时间来做其他工作,这还是在你使用了3D卡的前提下。

SSE有效解决了这个问题,除保持原有的MMX指令外,又新增了70条指令,在加快浮点运算的同时,也改善了内存的使用效率,使内存速度显得更快一些。对游戏性能的改善十分显著,可以说令人震惊!想想你现在需要一个400MHz以上的处理器,才能使Voodoo2、Riva TNT或Rage 128等显卡发挥至最高帧频,便可清楚理解这一点。按Intel的说法,SSE对下述几个领域的影响特别明显:3D几何运算及动画处理;图形处理(如Photoshop);视频编辑/压缩/解压(如MPEG和DVD);语音识别(ViaVoice仍然只是玩具,因为一般你每说20个字,它就会听错一个);以及声音压缩和合成。

将SSE引入你的系统

Pentium Ⅲ(代号Katmai)已于2月底正式上市,初期只提供450和500MHz两个版本,均采用Slot 1封装及100MHz外频。所以假如你用的是BX主板,只需升级一下BIOS,便可让PⅢ在你的系统上运行如飞。当然,前提是你的腰包足够鼓——它们现在仍是天价。

软件和驱动方面则不必担心。自1999年开始,会有越来越多的SSE优化软件上市,包括一些最热门的游戏,比如“天旋地转3”和“Quake 3:竞技场”等等。

下个系列的Pentium Ⅲ将于今年2季度晚些时候大量上市,将支持更快的133MHz外频(某些老主板未提供这一频率),从533MHz起跳。到99年末,600MHz以上的系统更会“遍地开花”。

飞意软件工作室-程序员网站版权所有

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有