因为我们使用静态库链接,Intel版本在代码中是一个函数调用。跟踪进入,可以发现Intel的实现在第一次调用时会先检测CPU类型,然后根据CPU类型跳转到不同的实现。在P4 机器上,其主循环如下:
00401A40 sub ecx,80h
00401A46 movdqa xmmword ptr [edx],xmm0
00401A4A movdqa xmmword ptr [edx+10h],xmm0
00401A4F movdqa xmmword ptr [edx+20h],xmm0
00401A54 movdqa xmmword ptr [edx+30h],xmm0
00401A59 movdqa xmmword ptr [edx+40h],xmm0
00401A5E movdqa xmmword ptr [edx+50h],xmm0
00401A63 movdqa xmmword ptr [edx+60h],xmm0
00401A68 movdqa xmmword ptr [edx+70h],xmm0
00401A6D add edx,80h
00401A73 cmp ecx,80h
00401A79 jge ___intel_new_memset+750h (00401a40)
可见Intel的实现使用了SSE2的128位xmm寄存器,并且为了促使指令并行,放置了8条复制指令,这样每个循环能够复制128×8=512 Bit。
MSC版本:
42: for (j=0; j< LoopTimes; j++)
43: {
44: memset(lpByte,1,SIZE);
0040103B mov ecx,1900000h
00401040 mov eax,1010101h
00401045 mov edi,ebx
00401047 dec edx
00401048 rep stos dword ptr [edi]
0040104A jne threadfunc+3Bh (0040103b)
如果是Debug版本,因为微软提供了CRT的sourcecode,可以跟踪其汇编实现,在Release版本,优化结果为把函数调用展开,但因为这里的实现只使用了普通的386指令按DWORD传送数据,所以在性能上会有如此大的差异。
另外,如果测试代码中的SIZE定义为较小的值,比如1024*128,在L2 cache为512K的P4上,两种方法的执行结果相差不大,由此可见Cache对局部访问的促进作用。
说明:以上例子在VC6和VC7中的结果相同。如果直接用Intel编译器编译,直接使用memset即可,Intel编译器在遇到memset时实际上编译为__VEC_memset,然后链接到Intel的Runtime库上。