DBCS是ASCII,較高的128個代碼中的某些總是跟隨著第二個位元組(位,Bit)。這兩個位元組(位,Bit)一起(稱作首位元組和跟隨位元組)定義一個字元,通常是一個複雜的象形文字。
基本介紹
- 外文名:dbcs
- 英文全稱:double-byte character set
- 套用領域:計算機
- 性質:文字編碼
簡介,處理方法,
簡介
雖然中文、日文和韓文共用一些相同的象形文字,但顯然這三種語言是不同的,而且經常是同一個象形文字在三種不同的語言中代表三件不同的事。Windows支持四個不同的雙位元組字元集:內碼錶932(日文)、936(簡體中文)、949(韓語)和950(繁體漢字)。只有為這些國家(地區)生產的Windows版本才支持DBCS。明白Unicode和DBCS之間的區別很重要。Unicode使用(特別在C程式設計語言環境裡)寬字元集。Unicode中的每個字元都是16位元寬而不是8位元寬。在Unicode中,沒有單單使用8位元數值的意義存在。相比之下,在雙位元組字元集中我們仍然處理8位元數值。有些位元組自身定義字元,而某些位元組則顯示需要和另一個位元組共同定義一個字元。
處理方法
處理DBCS字串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字元(16位元代碼從0x0000到0x007F)就是ASCII字元,而接下來的128個Unicode字元(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴展。Unicode中不同部分的字元都同樣基於現有的標準。這是為了便於轉換。希臘字母表使用從0x0370到0x03FF的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱為CJK)占用了從0x3000到0x9FFF的代碼。