用c语言进行内码转换 - 王朝网络宽屏版

关于内码转换的文章，网上有不少文章，还有源代码，在csdn上也有不少。就我所知道的，有两种方法比较普遍。以GB和BIG5为例，一则可以构建一个一一对应的表，到要使用的时候一查就可以了，另一种就是使用Windows强大的多国语言处理函数，如WideCharToMultiByte和 MultiByteToWideChar这两个函数，他们使用UNICODE作中转，实现两个代码页之间的转换。

这些都有前人叙述在前，我就不多说了。我在题目中已经提到是要用用c语言进行内码转换，那第一种方法自然是可以实现的，不过我不希望我的代码冗长无比，这种大表格能不用还是不用为好，省得麻烦。至于第二种方法，要和操作系统打交道，更重要的是，Windows API的风格我很不喜欢，所以我也不想用。

不过最后的方法还是和第二种方法有些相似，不过我不用Windows API，我用标准C函数。

其实，很久以前，c就对UNICODE和本地化处理有了很好的支持，wcstombs和mbstowcs这两个函数很像我前面提到的那两个Windows API，实现内码转换的原理也是相似的。唯一需要注意的是，在Windows API中多字节字符的代码页直接在函数中设置，而C语言则要在整个运行中设置。

设置运行时当前代码页的函数是setlocale，使用它需要包含头文件<locale.h>，使用wcstombs和mbstowcs则要包含头文件<wchar.h>。以中文为例936代码页是简体的，950是繁体的，当然也可以和其他汉字内码代码页互相转换，如utf8。下面是一个实例。

#include <stdio.h>

#include <locale.h>

#include <wchar.h>

int main(void)

{

char *temp;

char sim[32]="狗";

char tra[32];

wchar_t uni[32];

temp=setlocale(LC_ALL,".936");

puts(temp);

printf("%s\t%2x %2x\r\n",sim,(unsigned char)(sim[0]),(unsigned char)(sim[1]));

if(-1==mbstowcs(uni,sim,32))

{

perror("mbstowcs");

}

temp=setlocale(LC_ALL,".950");

if(-1==wcstombs(tra,uni,32))

{

perror("wcstombs");

}

printf("%s\t%2x %2x\r\n",tra,(unsigned char)(tra[0]),(unsigned char)(tra[1]));

system("PAUSE");

return 0;

}