VC语言

本类阅读TOP10

·VC++下使用ADO编写数据库程序
·VC++ 学习笔记(二)
·Windows消息大全
·每个开发人员现在应该下载的十种必备工具
·在2000和xp下,隐藏进程,VC6.0测试通过!!!
·用Visual C++打造IE浏览器(1)
·Netmsg 局域网聊天程序
·教你用VC6做QQ对对碰外挂程序
·VC++学习笔记(四)
·VC++中经常使用的函数!~~

分类导航
VC语言Delphi
VB语言ASP
PerlJava
Script数据库
其他语言游戏开发
文件格式网站制作
软件工程.NET开发
快速初始化内存(2)

作者:未知 来源:月光软件站 加入时间:2005-2-28 月光软件站

因为我们使用静态库链接,Intel版本在代码中是一个函数调用。跟踪进入,可以发现Intel的实现在第一次调用时会先检测CPU类型,然后根据CPU类型跳转到不同的实现。在P4 机器上,其主循环如下:

 

00401A40   sub         ecx,80h

00401A46   movdqa      xmmword ptr [edx],xmm0

00401A4A   movdqa      xmmword ptr [edx+10h],xmm0

00401A4F   movdqa      xmmword ptr [edx+20h],xmm0

00401A54   movdqa      xmmword ptr [edx+30h],xmm0

00401A59   movdqa      xmmword ptr [edx+40h],xmm0

00401A5E   movdqa      xmmword ptr [edx+50h],xmm0

00401A63   movdqa      xmmword ptr [edx+60h],xmm0

00401A68   movdqa      xmmword ptr [edx+70h],xmm0

00401A6D   add         edx,80h

00401A73   cmp         ecx,80h

00401A79   jge         ___intel_new_memset+750h (00401a40)

 

可见Intel的实现使用了SSE2128xmm寄存器,并且为了促使指令并行,放置了8条复制指令,这样每个循环能够复制128×8=512 Bit

MSC版本:

42:       for (j=0; j< LoopTimes; j++)

43:       {

44:           memset(lpByte,1,SIZE);

0040103B   mov         ecx,1900000h

00401040   mov         eax,1010101h

00401045   mov         edi,ebx

00401047   dec         edx

00401048   rep stos    dword ptr [edi]

0040104A   jne         threadfunc+3Bh (0040103b)

 

如果是Debug版本,因为微软提供了CRTsourcecode,可以跟踪其汇编实现,在Release版本,优化结果为把函数调用展开,但因为这里的实现只使用了普通的386指令按DWORD传送数据,所以在性能上会有如此大的差异。

 

另外,如果测试代码中的SIZE定义为较小的值,比如1024*128,在L2 cache512KP4上,两种方法的执行结果相差不大,由此可见Cache对局部访问的促进作用。

 

说明:以上例子在VC6VC7中的结果相同。如果直接用Intel编译器编译,直接使用memset即可,Intel编译器在遇到memset时实际上编译为__VEC_memset,然后链接到IntelRuntime库上。

VC6项目文件




相关文章

相关软件




月光软件程序下载编程文档电脑教程网站设计网址导航网络文学游戏天地幽默笑话生活休闲写作范文安妮宝贝
电脑技术编程开发网络专区谈天说地情感世界游戏元素分类游戏热门游戏体育运动手机专区业余爱好影视沙龙
音乐天地数码广场教育园地科学大观古今纵横谈股论金人文艺术医学保健动漫图酷二手专区地方风情各行各业

月光软件站·版权所有