通用字元集

通用字元集(Universal Character Set,UCS),是由ISO制定的ISO10646(或稱ISO/IEC 10646)標準所定義的字元編碼方式,採用4位元組編碼。又稱Universal Multiple-Octet Coded Character Set,大陸譯為通用多八位編碼字元集台灣譯為廣用多八位元編碼字元集。

基本介紹

  • 中文名:通用字元集
  • 外文名:Universal Character Set,UCS
  • 性質:編碼
  • 大陸譯為:通用多八位編碼字元集
基本概況,區別,

基本概況

通用字元集是所有包括了其他字元集。它保證了與其他字元集的雙向相容,即,如果你將任何文本字元串翻譯到UCS格式,然後再翻譯回原編碼,你不會丟失任何信息。
UCS包含了已知語言的所有字元。除了拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語、喬治亞語,還包括中文、日文、韓文這樣的象形文字,UCS還包括大量的圖形、印刷、數學、科學符號。
ISO 10646定義了一個31位的字元集。
ISO 10646-1標準第一次發表於1993年,現在的公開版本是ISO/IEC 10646-1:2000。ISO 10646-2在2001年發表。
UCS不僅給每個字元分配一個代碼,而且賦予了一個正式的名字。表示一個UCS或Unicode值的十六進位數通常在前面加上「U+」,例如「U+0041」代表字元「A」。
並不是所有的系統都需要支持像組合字元這樣的的先進機制。因此ISO 10646指定瞭如下三種實現級別:
級別1:不支持組合字元和韓語Hangul Jamo字元 。
級別2:類似於級別1,但在某些文字中,允許一列固定的組合字元,因為如果沒有最起碼的幾個組合字元,UCS就不能完整地表達這些語言。
級別3:支持所有的UCS字元,如,可以在任意一個字元上加上一個箭頭或一個tilde。
Unicode協會公布的Unicode標準包含了ISO 10646-1實現級別3的基本多文種平面。在兩個標準里,所有的字元都在相同的位置並且有相同的名字。
ISO 10646標準,就像ISO 8859標準一樣,只不過是一個簡單的字元集表。它定義了一些編碼的別名,指定了一些與標準有關的術語,並包括了規範說明,指定了怎樣使用UCS連線其他ISO標準的實現,比如ISO 6429和ISO 2022。還有一些與ISO緊密相關的,比如ISO 14651是關於UCS字元串排序的。
Unicode標準,額外定義了許多與字元有關的語義符號學。Unicode詳細說明了繪製某些語言(如阿拉伯語)表達形式的演算。
由於Unicode這一名字比較好記,因而它使用更為廣泛。不過一般認為,用於列印ISO 10646-1標準的字型在某些方面的質量,要高於Unicode2.0。

區別

兩者部分樣例字形有顯著的區別。ISO 10646-1標準同樣使用四種不同的風格變體來顯示錶意文字如中文、日文、韓文(即CJK),但Unicode2.0的表里只有中文的變體。甚至存在「Unicode對日本用戶來說不可接受」的傳說,儘管這是錯誤的。

相關詞條

熱門詞條

聯絡我們