Unicode
本篇一开始主要介绍了ASII和UNICODE的产生,和发展以及相关的一些标准,主要就是ASII是用一个字节8位来表示,UNICODE是用两个字节16位来表示,ASII有128个字符,而UNICODE可表示2的16次方个不重午的字符
这里有几点是以前所不知道的:
1,ASII由于是美国诞生的标准,因此仅仅够用于美国的字符集,因此其中有美元的符号却没有人民币的符号(仅供娱乐)
2,UNICODE在存储的时候是高低位颠倒的,比如0x 003F存储起来就是0x3F 0x00
3.程序语言中如果分不清A还是U编码就会范错误,比如统计HELLO的字符数,H的U编码为0x0041,存储为0x41 0x00,认为是ASII的话,HELLO就一个字符了,因为0x00是结束字符
所以在程序语言中就必须要区别这两种格式,在ASNI C中,用了宽字符这一概念,我们在这里可以把宽字符集就当作是UNICODE字符集(事实上应该是后者是前者的一种而已)
于是,对于字符处理函数,就有了两种版本,宽的和非宽的,这么看起来似乎大大增加了编程的难度,其实这些已经不再需要考虑,因为他们都已经被重写完了
在VSC++采取了一种机制在一些头文件中定义一系列的宏,通过对头文件的引用,而使这种争议变为不可见,如 TCHAR.H,通过对TCHAR.H的引用,在不同的编译环境下编译出不同的版本。
举几个个例子:
在TCHAR.H中有如下作用的定义:
如果定义了_UNICODE标识符
#define _tcslen wcslen
typedef wchar_t TCHAR ;
否则:
#define _tcslen strlen
typedef char TCHAR ;
在windows.h 也有类似的处理:
#ifdef UNICODE
typedef WCHAR TCHAR, * PTCHAR ;
typedef LPWSTR LPTCH, PTCH, PTSTR, LPTSTR ;
typedef LPCWSTR LPCTSTR ;
#else
typedef char TCHAR, * PTCHAR ;
typedef LPSTR LPTCH, PTCH, PTSTR, LPTSTR ;
typedef LPCSTR LPCTSTR ;
#endif
对API调用的通常以末尾加A和W来区别:
WINUSERAPI int WINAPI MessageBoxA (HWND hWnd, LPCSTR lpText,
LPCSTR lpCaption, UINT uType) ;
WINUSERAPI int WINAPI MessageBoxW (HWND hWnd, LPCWSTR lpText,
LPCWSTR lpCaption, UINT uType) ;
但这也增加了程序员的工作量,他们必须要判定是使用A还是使用W,还好有WINUSER.H来做了类似TCHAR.H的处理来帮助程序员解决麻烦,如下定义:
#ifdef UNICODE
#define MessageBox MessageBoxW
#else
#define MessageBox MessageBoxA
#endif
最后,给出一个程序:
*---------------------------------------------------------------------------
SCRNSIZE.C -- Displays screen size in a message box
(c) Charles Petzold, 1998
----------------------------------------------------------------------------*/
#include <windows.h>
#include <tchar.h>
#include <stdio.h>
int CDECL MessageBoxPrintf (TCHAR * szCaption, TCHAR * szFormat, ...)
{
TCHAR szBuffer [1024] ;
va_list pArgList ;
// The va_start macro (defined in STDARG.H) is usually equivalent to:
// pArgList = (char *) &szFormat + sizeof (szFormat) ;
va_start (pArgList, szFormat) ;
// The last argument to wvsprintf points to the arguments
_vsntprintf ( szBuffer, sizeof (szBuffer) / sizeof (TCHAR),
szFormat, pArgList) ;
// The va_end macro just zeroes out pArgList for no good reason
va_end (pArgList) ;
return MessageBox (NULL, szBuffer, szCaption, 0) ;
}
int WINAPI WinMain (HINSTANCE hInstance, HINSTANCE hPrevInstance,
PSTR szCmdLine, int iCmdShow)
{
int cxScreen, cyScreen ;
cxScreen = GetSystemMetrics (SM_CXSCREEN) ;
cyScreen = GetSystemMetrics (SM_CYSCREEN) ;
MessageBoxPrintf ( TEXT ("ScrnSize"),
TEXT ("The screen is %i pixels wide by %i pixels high."),
cxScreen, cyScreen) ;
return 0 ;
}
其中GetSystemMetrics是一个能用来获得Windows中不同对象的尺寸信息的函数
WINUSER.H 已经被 WINDOWS.H所包含,在WINDOWS.H中可看到#include <winuser.h>
PS:这一切都是使用大量的宏定义来解决的,虽然在一定程度上是烦琐变为不可见,但是我觉得还是不可避免的会出现这样那样的问题,只有统一一个标准才能从根本上解决这些问题