內碼

內碼

內碼是指計算機漢字系統中使用的二進制字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。如ASCII

基本介紹

  • 中文名:內碼
  • 外文名:Code
  • 進制:二進制
  • 套用:計算機
  • 內碼:GB2312
  • 目的:通用和高效率傳輸文本
  • 組織:國際標準
簡介,分類,內碼轉換,相互轉換,相關區別,

簡介

內碼是指計算機漢字系統中使用的二進制字元編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。比如MS Word中所存儲和調用的就是內碼而非圖形文字。英文ASCII字元採用一個位元組的內碼錶示,中文字元如國標字元集中,GB2312、GB12345、GB13000皆用雙位元組內碼,GB18030(27,533漢字)雙位元組內碼漢字為20,902個,其餘6,631個漢字用四位元組內碼。

分類

字元編碼:字元編碼就是以二進制的數字來對應字元集的字元,用得最普遍的字元集是ANSI,對應ANSI字元集的二進制編碼就稱為ANSI碼,DOS和Windows系統都使用了ANSI碼,但在系統中使用的字元編碼要經過二進制轉換,稱為系統內碼。
漢字內碼:ANSI碼是單一位元組(8位二進制數)的編碼集,最多只能表示256個字元,不能表示眾多的漢字字元,各個國家和地區在ANSI碼的基礎上又設計了各種不同的漢字編碼集,以能夠處理大數量的漢字字元。這些編碼使用單位元組來表示ANSI的英文字元(即兼容ANSI碼),使用雙位元組來表示漢字字元。由於一個系統中只能有一種漢字內碼,不能識別其它漢字內碼的字元,造成了交流的不便。
GB碼:GB碼是1980年國家公布的簡體漢字編碼方案,在大陸、新加坡得到廣泛的使用,也稱國標碼。國標碼對6763個漢字集進行了編碼,涵蓋了大多數正在使用的漢字。
GBK碼:GBK碼是GB碼的擴展字元編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
BIG5碼:BIG5碼是針對繁體漢字的漢字編碼,在台灣、香港的電腦系統中得到普遍套用。
HZ碼:HZ碼是在Internet上廣泛使用的一種漢字編碼。
ISO-2022CJK碼:ISO-2022是國際標準組織(ISO)為各種語言字元制定的編碼標準。採用二個位元組編碼,其中漢語編碼稱ISO-2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。CJK碼主要在Internet網路中使用。
Unicode碼:Unicode碼也是一種國際標準編碼,採用二個位元組編碼,與ANSI碼不兼容。在網路、Windows系統和很多大型軟體中得到套用。

內碼轉換

由於歷史、地區原因,有時一種文字會出現多種編碼方案,特別是漢字。由於不同於系統內碼的字元不能在該系統中正常顯示,必須要進行字元的內碼轉換,即將非系統內碼的字元轉換為系統可以識別的內碼字元。南極星就是這樣的優秀軟體,其它如四通利方、MagicWin98、兩岸通、漢字通等都是這樣的內碼轉換工具。

相互轉換

區位碼、國標碼與機內碼的轉換關係:
(1)區位碼先轉換成十六進制數表示
(2)(區位碼的十六進制表示)+2020H=國標碼;
(3)國標碼+8080H=機內碼
舉例:以漢字“大”為例,“大”字的區內碼為2083
解:1、區號為20,位號為83
2、將區位號2083轉換為十六進制表示為1453H
3、1453H+2020H=3473H,得到國標碼3473H
4、3473H+8080H=B4F3H,得到機內碼為B4F3H
小結: 字元編碼的兩種表示方式:ASCII(字元的表示);GB2312(國標碼,漢字編碼)

相關區別

1、機外碼就是你外界輸入的字元,這個字元輸入後會有一個相對應的區位碼(就是一個94*94的棋盤格格,你輸入的漢子會對應裡面的一個格子,行+列就是我們這裡的區+位),
2、區位碼經過換算可以變成國標碼(所以區位碼→國標碼這一步只是表示轉換下而已),
3、國標碼再經過換算可以變成機內碼(一般是16進制數表示)。

相關詞條

熱門詞條

聯絡我們