通用字元集

通用字元集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或稱ISO/IEC 10646)標準所定義的字元編碼方式,採用4位元組編碼。

基本介紹

  • 中文名:通用字元集
  • 外文名:Universal Character Set
  • 縮寫:UCS
定義,概要,實現級別,兼容關係,

定義

又稱Universal Multiple-Octet Coded Character Set,大陸譯為通用多八位編碼字元集,台灣譯為廣用多八位元編碼字元集

概要

通用字元集是所有包括了其他字元集。它保證了與其他字元集的雙向兼容,即,如果你將任何文本字元串翻譯到UCS格式,然後再翻譯回原編碼,你不會丟失任何信息。UCS包含了已知語言的所有字元。除了拉丁語、希臘語、斯拉夫語、希伯來語、阿拉伯語、亞美尼亞語、喬治亞語,還包括中文、日文、韓文這樣的象形文字,UCS還包括大量的圖形、印刷、數學、科學符號。
ISO 10646定義了一個31位的字元集。
ISO 10646-1標準第一次發表於1993年,2000年的公開版本是ISO/IEC 10646-1:2000。ISO 10646-2在2001年發表。
UCS不僅給每個字元分配一個代碼,而且賦予了一個正式的名字。表示一個UCS或Unicode值的十六進制數通常在前面加上“U+”,例如“U+0041”代表字元“A”。

實現級別

並不是所有的系統都需要支持像組合字元這樣的的先進機制。因此ISO 10646指定了如下三種實現級別:
級別1:不支持組合字元和諺文字母字元。
級別2:類似於級別1,但在某些文字中,允許一列固定的組合字元,因為如果沒有最起碼的幾個組合字元,UCS就不能完整地表達這些語言。
級別3:支持所有的通用字元集字元,如,可以在任意一個字元上加上一個箭頭或一個鼻音化符號.

兼容關係

通用字元集是與UNICODE同類的組織,UCS-2和UNICODE兼容。 位數:它有UCS-2和UCS-4兩種格式,分別是2位元組和4位元組。 範圍:UCS-4隻是在UCS-2前面加了0×0000。
UNICODE字元集
作用:為世界650種語言進行統一編碼,兼容ISO-8859-1。
位數:UNICODE字元集有多個編碼方式,分別是UTF-8,UTF-16和UTF-32。

相關詞條

熱門詞條

聯絡我們