分享
 
 
 

构建 GB2312 汉字库的 unicode 码表

王朝vc·作者佚名  2006-01-17
窄屏简体版  字體: |||超大  

构建 GB2312 汉字库的 unicode 码表

作者:乾坤一笑

下载源代码

构建 GB2312 汉字库的 unicode

码表嵌入式系统总离不了处理汉字。一般汉字的处理方法是(以手机接受短信为例):比如你收到了一封短信,该短信解码后是按照 UTF-16

表示的,那么我们需要根据每一个汉字的unicode 码找到它在 GB2312 库中的位置,然后再用对应的点阵数据在屏幕上显示出来。

于是乎,必须有一种手段将 unicode 码和汉字字模的数据对应起来。最常用的手段是做一个 unicode 码表,在该数组中查找到匹配的

unicode 码后,用匹配的 index(数组索引)值在另外一个由该 index 值对应的字模记录的数组中的数据去显示。

+-----------------+ 查表 +-----------------+ 同index +-------------------+

| 汉字的unicode码 | ==> | unicode码表数组 | =======> | 汉字字模数据数组 | ==> 显示输出

+-----------------+ +-----------------+ +-------------------+

本文简要介绍一下如何生成 unicode 码表,其它相关的汉字处理技术不在本文的讨论范围之内。:)

用下面两个函数可以把 unicode 码表构造出来(*注1):

void UnicodeToGB2312(unsigned char* pOut,unsigned short uData)

{

WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL);

return;

}

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer)

{

MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

return;

}

一个简单的例子如下(随手写的一段代码,只是演示一下构造数组的过程,不要挑刺儿啊! ^_^ ):

/*-----------------------------------------------*| GB2312 unicode table constructor |

| author: Spark Song || file : build_uni_table.c |

| date : 2005-11-18 |

\*-----------------------------------------------*/

#include <stdio.h>

#include <windows.h>

void UnicodeToGB2312(unsigned char* pOut,unsigned short uData);

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer);

void construct_unicode_table();

int main(int argc, char *argv[])

{

construct_unicode_table();

return 0;

}

void construct_unicode_table()

{

#define GB2312_MATRIX (94)

#define DELTA (0xA0)

#define FONT_ROW_BEGIN (16 + DELTA)

#define FONT_ROW_END (87 + DELTA)

#define FONT_COL_BEGIN (1 + DELTA)

#define FONT_COL_END (GB2312_MATRIX + DELTA)

#define FONT_TOTAL (72 * GB2312_MATRIX)

int i, j;

unsigned char chr[2];

unsigned short uni;

unsigned short data[FONT_TOTAL] = {0};

int index = 0;

unsigned short buf;

//生成unicode码表

for (i=FONT_ROW_BEGIN; i<=FONT_ROW_END; i++)

for(j=FONT_COL_BEGIN; j<=FONT_COL_END; j++)

{

chr[0] = i;

chr[1] = j;

Gb2312ToUnicode(&uni, chr);

data[index] = uni; index++;

}

//排个序,以后检索的时候就可以用binary-search了

for (i=0;i<index-1; i++)

for(j=i+1; j<index; j++)

if (data[i]>data[j])

{

buf = data[i];

data[i] = data[j];

data[j] = buf;

}

//输出到STD_OUT

printf("const unsigned short uni_table[]={\n");

for (i=0; i<index; i++)

{

uni = data[i];

UnicodeToGB2312(chr, uni);

printf(" 0x%.4X%s /* GB2312 Code: 0x%.2X%.2X ==> Row:%.2d Col:%.2d */\n",

uni,

i==index-1?" ":",",

chr[0],

chr[1],

chr[0] - DELTA,

chr[1] - DELTA

);

}

printf("};\n");

return ;

}

void UnicodeToGB2312(unsigned char* pOut,unsigned short uData)

{

WideCharToMultiByte(CP_ACP,NULL,&uData,1,pOut,sizeof(unsigned short),NULL,NULL);

return;

}

void Gb2312ToUnicode(unsigned short* pOut,unsigned char *gbBuffer)

{

MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);

return;

}

用 VC 编译后,在 DOS 中执行:build_uni_table.exe > report.txt

可以得到如下的txt文件:

const unsigned short uni_table[]={

0x4E00, /* GB2312 Code: 0xD2BB == Row:50 Col:27 */

0x4E01, /* GB2312 Code: 0xB6A1 == Row:22 Col:01 */

0x4E03, /* GB2312 Code: 0xC6DF == Row:38 Col:63 */

0x4E07, /* GB2312 Code: 0xCDF2 == Row:45 Col:82 */

... ...

0x9F9F, /* GB2312 Code: 0xB9EA == Row:25 Col:74 */

0x9FA0, /* GB2312 Code: 0xD9DF == Row:57 Col:63 */

0xE810, /* GB2312 Code: 0xD7FA == Row:55 Col:90 */

0xE811, /* GB2312 Code: 0xD7FB == Row:55 Col:91 */

0xE812, /* GB2312 Code: 0xD7FC == Row:55 Col:92 */

0xE813, /* GB2312 Code: 0xD7FD == Row:55 Col:93 */

0xE814 /* GB2312 Code: 0xD7FE == Row:55 Col:94 */

};

然后把这个生成的数组copy到项目代码中使用就okey了。hoho,其实在开发中编写代码来构造代码的机会很多,coder不用coding辅助自己开发多浪费啊~

:)

注1:关于内码转换的相关知识可参考 VCKBASE 电子杂志上的两篇文章:

吴康彬 “UTF-8与GB2312之间的互换

李天助 “《UTF-8与GB2312之间的互换》的改进

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有