| 導購 | 订阅 | 在线投稿
分享
 
 
當前位置: 王朝網路 >> c/c++ >> C程序實現漢字內碼與GB碼
 

C程序實現漢字內碼與GB碼

2008-06-01 02:06:33  編輯來源:互聯網  简体版  手機版  評論  字體: ||
 
 
  // HZEncode.cpp : Defines the entry point for the console application.

  //

  /*

  參考文獻:

  漢字的編碼和表示

  1)漢字交換碼(國標碼) 漢字交換碼(國標碼)主要用于漢字信息交換。

  國標碼:以國家標准局1980年頒布的《信息交換用漢字編碼字符集"基本集》(代號爲GB2312 80)規定的漢字交換碼作爲國家標准漢字編碼。 GB2312 80中共有7445個字符符號: 漢字符號6763個 一級漢字3755個(按漢語拼音字母順序排列) 二級漢字3008個(按部首筆劃順序排列) 非漢字符號682個 GB2312 80規定,所有的國標碼漢字及符號組成一個94 94的方陣。在此方陣中,每一行稱爲一個"區",每一列稱爲一個"位"。這個方陣實際上組成一個有94個區(編號由01到94),每個區有94個位(編號由01到94)的漢字字符集。 一個漢字所在的區號和位號的組合就構成了該漢字的"區位碼"。其中,高兩位爲區號,低兩位爲位號。這樣區位碼可以唯一地確定某一漢字或字符;反之,任何一個漢字或符號都對應一個唯一的區位碼,沒有重碼。

  區位碼分布情況如下:

  區 號 內 容 1區 鍵盤上沒有的各種符號 2區 各種序號 3區 鍵盤上的各種符號(按中文方式給出) 4 -5區 日文字母 6區 希臘字母 7區 俄文字母 8區 標識拼音聲調的母音及拼音字母名稱 9區 制表符號 10- 15區 未用 16-55區 一級漢字(按拼音字母順序排列) 56- 87區 二級漢字(按部首筆劃順序排列) 88- 94區 自定義漢字

  由上可以看出,所有漢字與符號的94個區,可以分爲四個組:

  ①1 -15區:爲圖形符號區。其中1 9區爲標准符號區;10 15區爲自定義符號區。

  ②16 -55區:爲一級漢字區,包含3755個漢字。這些區中的漢字按漢語拼音順序排序,同音字按筆畫順序列出。

  ③56 -87區:爲二級漢字區,包含3008個漢字。這些區中的漢字是按部首筆劃順序排序的。

  ④88 -94區:爲自定義漢字區。

  國標碼規定,每個漢字(包括非漢字的一些符號)由2字節代碼表示。每個字節的最高位爲0,只使用低7位,而低7位的編碼中又有34個適用于控制用的,這樣每個字節只有27 - 34 = 94個編碼用于漢字。2個字節就有94 94=8836個漢字編碼。在表示一個漢字的2個字節中,高字節對應編碼表中的行號,稱爲區號;低字節對應編碼表中的列號,稱爲位號。

  漢字國標碼的範圍用二進制表示是: 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII碼是128個字符組成的字符集。其中編碼值0 31(00000000 00011111)不對應任何印刷字符,通常稱爲控制符,用于計算機通信中的通信控制或對計算機設備的功能控制。編碼值32(00100000)是空格字符SP。編碼值127(1111111)是刪除字符DEL。

  漢字國標碼的起始二進制位置選擇00100001即(33)10是爲了跳過ASCII碼的32個控制字符和空格字符。所以,漢字國標碼的高位和低位分別比對應的區位碼大(32)10或(00100000)2或(20)H,即: 國標碼高位 = 區碼 + 20H (H表示十六進制) 國標碼低位 = 位碼 + 20H

  2) 漢字機內碼(內碼)(漢字存儲碼)

  漢字機內碼(內碼)(漢字存儲碼)的作用是統一了各種不同的漢字輸入碼在計算機內部的表示。 爲了將漢字的各種輸入碼在計算機內部統一起來,就有了專用于計算機內部存儲漢字使用的漢字機內碼,用以將輸入時使用的多種漢字輸入碼統一轉換成漢字機內碼進行存儲,以方便機內的漢字處理 漢字機內碼是在計算機內部存儲、處理的代碼。計算機既要處理漢字,又要處理英文。因此計算機必須能區別漢字字符和英文字符。英文字符的的機內碼是最高爲爲0的8位ASCII碼。爲了不與7位ASCII碼發生沖突,把國標碼每個字節的最高位由0改爲1,其余位不變的編碼作爲漢字字符的機內碼。

  漢字機內碼的範圍用二進制表示是: 10100001 10100001 11111110 11111110 機內碼的高位和低位比對應的國標碼的高位和低位大(128)10或(10000000)2或(80)H 即: 機內碼高位 = 國標碼高位 + 80H 機內碼低位 = 國標碼低位 + 80H 又因爲: 國標碼高位 = 區碼 + 20H 國標碼低位 = 位碼 + 20H 所以: 機內碼高位 = 區碼 + A0H 機內碼低位 = 位碼 + A0H 也就是說,機內碼高位和機內碼低位分別比對應的區碼和位碼大(160)10或(10100000)2或 (A0)H 例如:漢字"啊"的區位碼爲"1601",其中區碼爲(16)10或(10)H,位碼爲(01)10或(01)H。 則: 機內碼高位 = 10H + A0H = B0H 機內碼低位 = 01H + A0H = A1H 所以: 機內碼= B0A1H

  

  以下是引用片段:

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  3) 漢字輸入碼(外碼)

  漢字輸入碼(外碼)是爲了通過鍵盤字符把漢字輸入計算機而設計的一種編碼。 英文輸入時,相輸入什麽字符便按什麽鍵,輸入碼和機內碼一致。漢字輸入時,可能要按幾個鍵才能輸入一個漢字。 漢字輸入方案有成百上千個,但是這千差萬別的外碼輸入進計算機後都會轉換成統一的內碼。 漢字輸入方案大致可分爲以下4種類型:

  (1) 音碼:如全拼、雙拼、微軟拼音等

  (2) 形碼:如五筆字型、鄭碼、表形碼等

  (3) 音形碼:如智能ABC、自然碼等

  (4) 數字碼:如區位碼、電報碼等

  4) 漢字字形碼(輸出碼)

  漢字字形碼(輸出碼)用于漢字的顯示和打印,是漢字字形的數字化信息。 漢字的內碼是用數字代碼來表示漢字,但是爲了在輸出時讓人們看到漢字,就必須輸出漢字的字形。在漢字系統中,一般采用點陣來表示字形。 16 *16漢字點陣示意 16 * 16點陣字形的字要使用32個字節(16 * 16/8= 32)存儲,24 * 24點陣字形的字要使用72個字節(24 * 24/8=72)存儲。

  一般來說,表現漢字時使用的點陣越大,則漢字字形的質量也越好,當然每個漢字點陣所需的存儲量也越大。

  5) 漢字地址碼

  漢字地址碼是指漢字庫(這裏主要指整字形的點陣式字模庫)中存儲漢字字形信息的邏輯地址。在漢字庫中,字形信息都是按一定順序(大多數按標准漢字交換碼中漢字的排列順序)連續存放在存儲介質上的,所以漢字地址碼也大多是連續有序的,而且與漢字內碼間有著簡單的對應關系,以簡化漢字內碼到漢字地址碼的轉換。

  

  以下是引用片段:

  */

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  #include "stdafx.h"

  #include "HZEncode.h"

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  #ifdef _DEBUG

  #define new DEBUG_NEW

  #undef THIS_FILE

  static char THIS_FILE[] = __FILE__;

  #endif

  #define UNICODE

  #define _UNICODE

  /////////////////////////////////////////////////////////////////////////////

  // The one and only application object

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  CWinApp theApp;

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  using namespace std;

  unsigned short* ptr;

  char* pszHZ = "啊";

  byte BT[] = {0xc4,0xe3,0xBA,0xC3};//「你好」的機內碼

  int _tmain(int argc, TCHAR* argv[], TCHAR* envp[])

  {

   int nRetCode = 0;

  <!--[if !supportEmptyParas]--> <!--[endif]-->

   // initialize MFC and print and error on failure

   if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0))

   {

   // TODO: change error code to suit your needs

   cerr << _T("Fatal Error: MFC initialization failed") << endl;

   nRetCode = 1;

   }

   else

   {

   for (int i = 16;i <= 55; i++)

   {

   byte Temp[3];

   Temp[2] = 0;

   Temp[0] = i + 0xA0;

   for (int j = 1;j < 94;j++)

   {

  

   Temp[1] = j + 0xA0;

   cout << (LPCTSTR) Temp;

  

   }

   cout << endl;

   }

  <!--[if !supportEmptyParas]--> <!--[endif]-->

   }

  <!--[if !supportEmptyParas]--> <!--[endif]-->

   system("pause");

   return nRetCode;

  }

  <!--[if !supportEmptyParas]--> <!--[endif]-->

  

  <!--[if !supportEmptyParas]--> <!--[endif]-->
 
 
 
上一篇《C++中的虛函數(virtual function)(1)》
下一篇《C語言實現MATLAB6.5中M文件的方法》
 
 
 
 
 
 
日版寵物情人插曲《Winding Road》歌詞

日版寵物情人2017的插曲,很帶節奏感,日語的,女生唱的。 最後聽見是在第8集的時候女主手割傷了,然後男主用嘴幫她吸了一下,插曲就出來了。 歌手:Def...

兄弟共妻,我成了他們夜裏的美食

老鍾家的兩個兒子很特別,就是跟其他的人不太一樣,魔一般的執著。兄弟倆都到了要結婚的年齡了,不管自家老爹怎麽磨破嘴皮子,兄弟倆說不娶就不娶,老父母爲兄弟兩操碎了心...

如何磨出破洞牛仔褲?牛仔褲怎麽剪破洞?

把牛仔褲磨出有線的破洞 1、具體工具就是磨腳石,下面墊一個硬物,然後用磨腳石一直磨一直磨,到把那塊磨薄了,用手撕開就好了。出來的洞啊很自然的。需要貓須的話調幾...

我就是掃描下圖得到了敬業福和愛國福

先來看下敬業福和愛國福 今年春節,支付寶再次推出了“五福紅包”活動,表示要“把欠大家的敬業福都還給大家”。 今天該活動正式啓動,和去年一樣,需要收集“五福”...

冰箱異味産生的原因和臭味去除的方法

有時候我們打開冰箱就會聞到一股異味,冰箱裏的這種異味是因爲一些物質發出的氣味的混合體,聞起來讓人惡心。 産生這些異味的主要原因有以下幾點。 1、很多人有這種習...

《極品家丁》1-31集大結局分集劇情介紹

簡介 《極品家丁》講述了現代白領林晚榮無意回到古代金陵,並追隨蕭二小姐化名“林三”進入蕭府,不料卻陰差陽錯上演了一出低級家丁拼搏上位的“林三升職記”。...

李溪芮《極品家丁》片尾曲《你就是我最愛的寶寶》歌詞

你就是我最愛的寶寶 - 李溪芮 (電視劇《極品家丁》片尾曲) 作詞:常馨內 作曲:常馨內 你的眉 又鬼馬的挑 你的嘴 又壞壞的笑 上一秒吵鬧 下...

烏梅的功效與作用以及烏梅的食用禁忌有哪些?

烏梅,又稱春梅,中醫認爲,烏梅味酸,性溫,無毒,具有安心、除熱、下氣、祛痰、止渴調中、殺蟲的功效,治肢體痛、肺痨病。烏梅泡水喝能治傷寒煩熱、止吐瀉,與幹姜一起制...

什麽是脂肪粒?如何消除臉部脂肪粒?

什麽是脂肪粒 在我們的臉上總會長一個個像脂肪的小顆粒,弄也弄不掉,而且顔色還是白白的。它既不是粉刺也不是其他的任何痘痘,它就是脂肪粒。 脂肪粒雖然也是由油脂...

網絡安全治理:國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰受害者

來源:中國青年報 新的攻擊方法不斷湧現,黑客幾乎永遠占據網絡攻擊的上風,我們不可能通過技術手段杜絕網絡攻擊。國家安全保障的主要方向是打擊犯罪,而不是處置和懲罰...

河南夫妻在溫嶺網絡直播“造人”內容涉黃被刑事拘留

夫妻網絡直播“造人”爆紅   1月9日,溫嶺城北派出所接到南京警方的協查通告,他們近期打掉了一個涉黃直播APP平台。而根據掌握的線索,其中有一對涉案的夫妻主播...

如何防止牆紙老化?牆紙變舊變黃怎麽辦?

如何防止牆紙老化? (1)選擇透氣性好的牆紙 市場上牆紙的材質分無紡布的、木纖維的、PVC的、玻璃纖維基材的、布面的等,相對而言,PVC材質的牆紙最不透氣...

鮮肌之謎非日本生産VS鮮肌之謎假日貨是謠言

觀點一:破日本銷售量的“鮮肌之謎” 非日本生産 近一段時間,淘寶上架了一款名爲“鮮肌之謎的” 鲑魚卵巢美容液,號稱是最近日本的一款推出的全新護膚品,産品本身所...

中國最美古詩詞精選摘抄

系腰裙(北宋詞人 張先) 惜霜蟾照夜雲天,朦胧影、畫勾闌。人情縱似長情月,算一年年。又能得、幾番圓。 欲寄西江題葉字,流不到、五亭前。東池始有荷新綠,尚小如...

關于女人的經典語句

關于女人的經典語句1、【做一個獨立的女人】 思想獨立:有主見、有自己的人生觀、價值觀。有上進心,永遠不放棄自己的理想,做一份自己喜愛的事業,擁有快樂和成就...

未來我們可以和性愛機器人結婚嗎?

你想體驗機器人性愛嗎?你想和性愛機器人結婚嗎?如果你想,機器人有拒絕你的權利嗎? 近日,第二屆“國際人類-機器人性愛研討會”大會在倫敦金史密斯大學落下帷幕。而...

全球最變態的十個地方

10.土耳其地下洞穴城市 變態指數:★★☆☆☆ 這是土耳其卡帕多西亞的一個著名景點,傳說是當年基督教徒們爲了躲避戰爭而在此修建。裏面曾住著20000人,...

科學家稱,人類死亡後意識將在另外一個宇宙中繼續存活

據英國《每日快報》報道,一位科學家兼理論家Robert Lanza博士宣稱,世界上並不存在人類死亡,死亡的只是身體。他認爲我們的意識借助我們體內的能量生存,而且...

《屏裏狐》片頭曲《我愛狐狸精》歌詞是什麽?

《我愛狐狸精》 - 劉馨棋   (電視劇《屏裏狐》主題曲)   作詞:金十三&李旦   作曲:劉嘉   狐狸精 狐狸仙   千年修...

 
 
 
  // HZEncode.cpp : Defines the entry point for the console application.   //   /*   參考文獻:   漢字的編碼和表示   1)漢字交換碼(國標碼) 漢字交換碼(國標碼)主要用于漢字信息交換。   國標碼:以國家標准局1980年頒布的《信息交換用漢字編碼字符集"基本集》(代號爲GB2312 80)規定的漢字交換碼作爲國家標准漢字編碼。 GB2312 80中共有7445個字符符號: 漢字符號6763個 一級漢字3755個(按漢語拼音字母順序排列) 二級漢字3008個(按部首筆劃順序排列) 非漢字符號682個 GB2312 80規定,所有的國標碼漢字及符號組成一個94 94的方陣。在此方陣中,每一行稱爲一個"區",每一列稱爲一個"位"。這個方陣實際上組成一個有94個區(編號由01到94),每個區有94個位(編號由01到94)的漢字字符集。 一個漢字所在的區號和位號的組合就構成了該漢字的"區位碼"。其中,高兩位爲區號,低兩位爲位號。這樣區位碼可以唯一地確定某一漢字或字符;反之,任何一個漢字或符號都對應一個唯一的區位碼,沒有重碼。   區位碼分布情況如下:   區 號 內 容 1區 鍵盤上沒有的各種符號 2區 各種序號 3區 鍵盤上的各種符號(按中文方式給出) 4 -5區 日文字母 6區 希臘字母 7區 俄文字母 8區 標識拼音聲調的母音及拼音字母名稱 9區 制表符號 10- 15區 未用 16-55區 一級漢字(按拼音字母順序排列) 56- 87區 二級漢字(按部首筆劃順序排列) 88- 94區 自定義漢字   由上可以看出,所有漢字與符號的94個區,可以分爲四個組:   ①1 -15區:爲圖形符號區。其中1 9區爲標准符號區;10 15區爲自定義符號區。   ②16 -55區:爲一級漢字區,包含3755個漢字。這些區中的漢字按漢語拼音順序排序,同音字按筆畫順序列出。   ③56 -87區:爲二級漢字區,包含3008個漢字。這些區中的漢字是按部首筆劃順序排序的。   ④88 -94區:爲自定義漢字區。   國標碼規定,每個漢字(包括非漢字的一些符號)由2字節代碼表示。每個字節的最高位爲0,只使用低7位,而低7位的編碼中又有34個適用于控制用的,這樣每個字節只有27 - 34 = 94個編碼用于漢字。2個字節就有94 94=8836個漢字編碼。在表示一個漢字的2個字節中,高字節對應編碼表中的行號,稱爲區號;低字節對應編碼表中的列號,稱爲位號。   漢字國標碼的範圍用二進制表示是: 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 位ASCII碼是128個字符組成的字符集。其中編碼值0 31(00000000 00011111)不對應任何印刷字符,通常稱爲控制符,用于計算機通信中的通信控制或對計算機設備的功能控制。編碼值32(00100000)是空格字符SP。編碼值127(1111111)是刪除字符DEL。   漢字國標碼的起始二進制位置選擇00100001即(33)10是爲了跳過ASCII碼的32個控制字符和空格字符。所以,漢字國標碼的高位和低位分別比對應的區位碼大(32)10或(00100000)2或(20)H,即: 國標碼高位 = 區碼 + 20H (H表示十六進制) 國標碼低位 = 位碼 + 20H   2) 漢字機內碼(內碼)(漢字存儲碼)   漢字機內碼(內碼)(漢字存儲碼)的作用是統一了各種不同的漢字輸入碼在計算機內部的表示。 爲了將漢字的各種輸入碼在計算機內部統一起來,就有了專用于計算機內部存儲漢字使用的漢字機內碼,用以將輸入時使用的多種漢字輸入碼統一轉換成漢字機內碼進行存儲,以方便機內的漢字處理 漢字機內碼是在計算機內部存儲、處理的代碼。計算機既要處理漢字,又要處理英文。因此計算機必須能區別漢字字符和英文字符。英文字符的的機內碼是最高爲爲0的8位ASCII碼。爲了不與7位ASCII碼發生沖突,把國標碼每個字節的最高位由0改爲1,其余位不變的編碼作爲漢字字符的機內碼。   漢字機內碼的範圍用二進制表示是: 10100001 10100001 11111110 11111110 機內碼的高位和低位比對應的國標碼的高位和低位大(128)10或(10000000)2或(80)H 即: 機內碼高位 = 國標碼高位 + 80H 機內碼低位 = 國標碼低位 + 80H 又因爲: 國標碼高位 = 區碼 + 20H 國標碼低位 = 位碼 + 20H 所以: 機內碼高位 = 區碼 + A0H 機內碼低位 = 位碼 + A0H 也就是說,機內碼高位和機內碼低位分別比對應的區碼和位碼大(160)10或(10100000)2或 (A0)H 例如:漢字"啊"的區位碼爲"1601",其中區碼爲(16)10或(10)H,位碼爲(01)10或(01)H。 則: 機內碼高位 = 10H + A0H = B0H 機內碼低位 = 01H + A0H = A1H 所以: 機內碼= B0A1H 以下是引用片段: <!--[if !supportEmptyParas]--> <!--[endif]-->   3) 漢字輸入碼(外碼)   漢字輸入碼(外碼)是爲了通過鍵盤字符把漢字輸入計算機而設計的一種編碼。 英文輸入時,相輸入什麽字符便按什麽鍵,輸入碼和機內碼一致。漢字輸入時,可能要按幾個鍵才能輸入一個漢字。 漢字輸入方案有成百上千個,但是這千差萬別的外碼輸入進計算機後都會轉換成統一的內碼。 漢字輸入方案大致可分爲以下4種類型:   (1) 音碼:如全拼、雙拼、微軟拼音等   (2) 形碼:如五筆字型、鄭碼、表形碼等   (3) 音形碼:如智能ABC、自然碼等   (4) 數字碼:如區位碼、電報碼等   4) 漢字字形碼(輸出碼)   漢字字形碼(輸出碼)用于漢字的顯示和打印,是漢字字形的數字化信息。 漢字的內碼是用數字代碼來表示漢字,但是爲了在輸出時讓人們看到漢字,就必須輸出漢字的字形。在漢字系統中,一般采用點陣來表示字形。 16 *16漢字點陣示意 16 * 16點陣字形的字要使用32個字節(16 * 16/8= 32)存儲,24 * 24點陣字形的字要使用72個字節(24 * 24/8=72)存儲。   一般來說,表現漢字時使用的點陣越大,則漢字字形的質量也越好,當然每個漢字點陣所需的存儲量也越大。   5) 漢字地址碼   漢字地址碼是指漢字庫(這裏主要指整字形的點陣式字模庫)中存儲漢字字形信息的邏輯地址。在漢字庫中,字形信息都是按一定順序(大多數按標准漢字交換碼中漢字的排列順序)連續存放在存儲介質上的,所以漢字地址碼也大多是連續有序的,而且與漢字內碼間有著簡單的對應關系,以簡化漢字內碼到漢字地址碼的轉換。 以下是引用片段: */ <!--[if !supportEmptyParas]--> <!--[endif]--> #include "stdafx.h" #include "HZEncode.h" <!--[if !supportEmptyParas]--> <!--[endif]--> #ifdef _DEBUG #define new DEBUG_NEW #undef THIS_FILE static char THIS_FILE[] = __FILE__; #endif #define UNICODE #define _UNICODE ///////////////////////////////////////////////////////////////////////////// // The one and only application object <!--[if !supportEmptyParas]--> <!--[endif]--> CWinApp theApp; <!--[if !supportEmptyParas]--> <!--[endif]--> using namespace std; unsigned short* ptr; char* pszHZ = "啊"; byte BT[] = {0xc4,0xe3,0xBA,0xC3};//「你好」的機內碼 int _tmain(int argc, TCHAR* argv[], TCHAR* envp[]) { int nRetCode = 0; <!--[if !supportEmptyParas]--> <!--[endif]--> // initialize MFC and print and error on failure if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0)) { // TODO: change error code to suit your needs cerr << _T("Fatal Error: MFC initialization failed") << endl; nRetCode = 1; } else { for (int i = 16;i <= 55; i++) { byte Temp[3]; Temp[2] = 0; Temp[0] = i + 0xA0; for (int j = 1;j < 94;j++) { Temp[1] = j + 0xA0; cout << (LPCTSTR) Temp; } cout << endl; } <!--[if !supportEmptyParas]--> <!--[endif]--> } <!--[if !supportEmptyParas]--> <!--[endif]--> system("pause"); return nRetCode; } <!--[if !supportEmptyParas]--> <!--[endif]--> <!--[if !supportEmptyParas]--> <!--[endif]-->
󰈣󰈤
 
 
 
  免責聲明:本文僅代表作者個人觀點,與王朝網路無關。王朝網路登載此文出於傳遞更多信息之目的,並不意味著贊同其觀點或證實其描述,其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,並請自行核實相關內容。
 
 
陽光靓麗的模特兒(8)
陽光靓麗的模特兒(7)
陽光靓麗的模特兒(6)
陽光靓麗的模特兒(5)
秋-印象
德慶盤龍峽 一
松江印象之三
雲之南(寬幅)
 
>>返回首頁<<
 
 
 
 熱帖排行
 
 
 
 
© 2005- 王朝網路 版權所有