Unicode解決方案

《Unicode解決方案》是一款元代碼書寫語言,支持書寫語言不能用256個8位元代碼。

基本介紹

  • 中文名:Unicode解決方案
  • 環境:C程式設計語言環境
  • 面向對象:元代碼書寫語言
  • 背景:書寫語言不能用256個8位元代碼
問題,解決方案,Unicode和DBCS之間的區別,處理Unicode文字,Unicode的最大好處,Unicode有缺點,

問題

我們面臨的基本問題是以前的解決方案包括內碼錶和DBCS已被證明是不能滿足需要的,而且也是笨拙的。那什麼才是真正的解決方案呢?

解決方案

身為程式寫作者,我們經歷過這類問題。如果事情太多,用8位元數值已經不能表示,那么我們就試更寬的值,例如16位元值。而且這很有趣的,正是Unicode被制定的原因。與混亂的256個字元代碼映射,以及含有一些1位元組代碼和一些2位元組代碼的雙位元組字元集不同,Unicode是統一的16位元系統,這樣就允許表示65,536個字元。這對表示所有字元及世界上使用象形文字的語言,包括一系列的數學、符號和貨幣單位符號的集合來說是充裕的。

Unicode和DBCS之間的區別

明白Unicode和DBCS之間的區別很重要。Unicode使用「寬字元集」。「Unicode中的每個字元都是16位元寬而不是8位元寬。」在Unicode中,沒有單單使用8位元數值的意義存在。相比之下,在雙位元組字元集中我們仍然處理8位元數值。有些位元組自身定義字元,而某些位元組則顯示需要和另一個位元組共同定義一個字元。

處理Unicode文字

處理DBCS字串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字元(16位元代碼從0x0000到0x007F)就是ASCII字元,而接下來的128個Unicode字元(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴展。Unicode中不同部分的字元都同樣基於現有的標準。這是為了便於轉換。希臘字母表使用從0x0370到0x03FF的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱為CJK)占用了從0x3000到0x9FFF的代碼。

Unicode的最大好處

Unicode的最大好處是這裡只有一個字元集,沒有一點含糊。Unicode實際上是個人電腦行業中幾乎每個重要公司共同合作的結果,並且它與ISO 10646-1標準中的代碼是一一對應的。Unicode的重要參考文獻是《The Unicode Standard,Version 2.0》(Addison-Wesley出版社,1996年)。這是一本特別的書,它以其他檔案少有的方式顯示了世界上書寫語言的豐富性和多樣性。此外,該書還提供了開發Unicode的基本原理和細節。

Unicode有缺點

Unicode有缺點嗎?當然有。Unicode字串占用的記憶體是ASCII字串的兩倍。(然而壓縮檔案有助於極大地減少檔案所占的磁碟空間。)但也許最糟的缺點是:人們相對來說還不習慣使用Unicode。身為程式寫作者,這就是我們的工作。

相關詞條

熱門詞條

聯絡我們