漢字國標碼

漢字國標碼

漢字國標碼,創建於1980年,目的為了使每個漢字有一個全國統一的代碼而頒布了漢字編碼的國家標準。每個漢字有個二進制編碼,叫漢字國標碼。 在我國漢字代碼標準GB2312-80中有6763個常用漢字規定了二進制編碼。

基本介紹

  • 中文名:漢字國標碼
  • 外文名:HAN ZI GUO BIAO MA
  • 概述:標準GB2312-80
  • 創立時間:1980年
簡介,輸入碼,

簡介

每個漢字有個二進制編碼,叫漢字國標碼
在我國漢字代碼標準GB2312-80中有6763個常用漢字規定了二進制編碼。
每個漢字使用2個位元組
GB2312-80 GB2312將代碼表分為94個區,對應第一位元組;每個區94個位,對應第二位元組,兩個位元組的值分別為區號值和位號值加32(20H)。01-09區為符號、數字區,16-87區為漢字區,10-15區、88-94區是有待進一步標準化的空白區。GB2312將收錄的漢字分成兩級:第一級是常用漢字計 3755個,置於16-55區,按漢語拼音字母/筆形順序排列;第二級漢字是次常用漢字計3008個,置於56-87區,按部首/筆畫順序排列。故而 GB2312最多能表示6763個漢字。

輸入碼

1980年,為了使每個漢字有一個全國統一的代碼,我國頒布了漢字編碼的國家標準:GB2312-80《信息交換用漢字編碼字元集》基本集,這個字元集是我國中文信息處理技術的發展基礎,也是目前國內所有漢字系統的統一標準。國標碼是一個四位十六進制數,區位碼是一個四位的十進制數,每個國標碼或區位碼都對應著一個唯一的漢字或符號,但因為十六進制數我們很少用到,所以大家常用的是區位碼,它的前兩位叫做區碼,後兩位叫做位碼。
輸入碼、區位碼國標碼機內碼,這些詞對每一位computer fan 來說,可能都不陌生,但其中的聯繫與區別,可能就不那么清楚了,下面就這問題講述一下,以饗讀者。
我們知道,鍵盤是當前微機的主要輸入設備,輸入碼就是使用英文鍵盤輸入漢字時的編碼。目前,我國已推出的輸入碼有數百種,但用戶使用較多的約為十幾種,按輸入碼編碼的主要依據,大體可分為順序碼、音碼、形碼、音形碼四類,如“保”字,用全拼,輸入碼為“BAO”,用區位碼,輸入碼為“1703 ”,用五筆字型則為“WKS”。
計算機只識別由0、1組成的代碼,ASCII碼是英文信息處理的標準編碼,漢字信息處理也必須有一個統一的標準編碼。我國國家標準局於1981年5月頒布了《信息交換用漢字編碼字元集——基本集》,代號為GB2312-80,共對6763個漢字和682個圖形字元進行了編碼,其編碼原則為:漢字用兩個位元組表示,每個位元組用七位碼(高位為0),;國家標準將漢字和圖形符號排列在一個94行94列的二維代碼表中,;每兩個位元組分別用兩位十進制編碼,前位元組的編碼稱為區碼,後位元組的編碼稱為位碼,此即區位碼,如“保”字在二維代碼表中處於17區第3位,區位碼即為“1703 ”。
國標碼並不等於區位碼,它是由區位碼稍作轉換得到,其轉換方法為:先將十進制區碼和位碼轉換為十六進制的區碼和位碼,;這樣就得了一個與國標碼有一個相對位置差的代碼,;再將這個代碼的第一個位元組和第二個位元組分別加上20H,就得到國標碼。如:“保”字的國標碼為3123H,它是經過下面的轉換得到的:1703D->1103H->+20H->3123H。國標碼是漢字信息交換的標準編碼,但因其前後位元組的最高位為0,與ASCII碼發生衝突,如“保”字,國標碼為31H和23H,而西文字元“1”和“#”的ASCII也為31H和23H,現假如記憶體中有兩個位元組為31H和23H,這到底是一個漢字?還是兩個西文字元“1”和“#”於是就出現了二義性,顯然,國標碼是不可能在計算機內部直接採用的,於是,漢字的機內碼採用變形國標碼,其變換方法為:將國標碼的每個位元組都加上128,即將兩個位元組的最高位由0改1,其餘7位不變,如:由上面我們知道,“保”字的國標碼為3123H,前位元組為00110001B,後位元組為00100011B,高位改1為10110001B和10100011B 即為B1A3H,因此,漢字的機內碼就是B1A3H。
顯然,漢字機內碼的每個位元組都大於128,這就解決了與西文字元的ASCII碼衝突的問題。 如上所述,漢字輸入碼、區位碼、國標碼與機內碼都是漢字的編碼形式,它們之間有著千絲萬縷的聯繫,但其間的區別也是不容忽視的。

相關詞條

熱門詞條

聯絡我們