宗旨
其宗旨為最終以統一碼取代現存的字元編碼。因為現存編碼不能夠在多語言計算機環境中使用,而且字元數有局限。同時它也制定了數種統一碼轉換格式(UTF,Unicode Transformation Format)。
起源
Unicode是為了解決傳統的字元編碼方案的局限而產生的,例如ISO 8859-1所定義的字元雖然在不同的國家中廣泛地使用,可是在不同國家間卻經常出現不兼容的情況。
很多傳統的編碼方式都有一個共同的問題,即容許計算機處理雙語環境(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環境(指可同時處理多種語言混合的情況)。Unicode編碼包含了不同寫法的字,如“ɑ/a”、“強/強”、“戶/戶/戸”。然而在漢字方面引起了一字多形的認定爭議(詳見中日韓統一表意文字主題)。
在文字處理方面,統一碼為每一個字元而非字形定義唯一的代碼(即一個整數)。換句話說,統一碼以一種抽象的方式(即數字)來處理字元,並將視覺上的演繹工作(例如字型大小、外觀形狀、字型形態、文體等)留給其他軟體來處理,例如網頁瀏覽器或是文字處理器。
幾乎所有計算機系統都支持基本拉丁字母,並各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字元保留給ISO 8859-1所定義的字元,使既有的西歐語系文字的轉換不需特別考量;
並且把大量相同的字元重複編到不同的字元碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉換,而不會丟失任何信息。舉例來說,全形格式區段包含了主要的拉丁字母的全形格式,
在中文、日文、以及韓文字形當中,這些字元以全形的方式來呈現,而不以常見的半角形式顯示,這對豎排文字和等寬排列文字有重要作用。
在表示一個Unicode的字元時,通常會用“U+”然後緊接著一組十六進制的數字來表示這一個字元。在基本多文種平面(英文:Basic Multilingual Plane,簡寫BMP。又稱為“零號平面”、plane 0)里的所有字元,要用四位十六進制數(例如U+4AE0,共支持六萬多個字元);
在零號平面以外的字元則需要使用五位或六位十六進制數了。舊版的Unicode標準使用相近的標記方法,但卻有些微小差異:在Unicode 3.0里使用“U-”然後緊接著八位數,而“U+”則必須隨後緊接著四位數。
發展
位於美國加州的Unicode組織允許任何願意支付會費的公司和個人加入,其成員包含了主要的計算機軟硬體廠商,例如奧多比系統、蘋果公司、惠普、IBM、微軟、施樂等。
20世紀80年代末,組成Unicode組織的商業機構,和國際合作的國際標準化組織因為計算機普及和信息國際化的前提下,分別各自成立了Unicode組織和ISO-10646工作小組。
他們不久便發現對方的存在,大家為著相同的目的而工作,於是兩個組織便共同合作開發適用於各國語言的通用碼,而且“相當有默契地”各自發表Unicode和ISO-10646字集。雖然實際上兩者的字集編碼相同,但實質上兩者確實為兩個不同的標準。
統一碼聯盟在1991年首次發布了The Unicode Standard。Unicode的開發結合了國際標準化組織所制定的ISO/IEC 10646,即通用字元集。Unicode與ISO/IEC 10646在編碼的運作原理相同,
但The Unicode Standard包含了更詳盡的實現信息、涵蓋了更細節的主題,諸如比特編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard也枚舉了諸多的字元特性,包含了那些必須支持兩種閱讀方向的文字(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646這兩個標準在術語上的使用有些微的不同。
在2005年,Unicode的第十萬個字元被引入成為標準之一,該字元被用於馬來亞拉姆語。
成員合作
統一碼聯盟由世界各地主要的電腦製造商、軟體開發商、資料庫開發商、政府部門、研究機構、國際機構、各用戶組織及個人組成。統一碼聯盟的領導者及管理人員來自各個組織及行業,代表著最廣泛的編碼套用。
統一碼聯盟包含三個技術委員會和一個編輯委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
出版刊物
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準》(The Unicode Standard)
《字元數字型檔》(Character Database)
《Unicode技術準備和報告》(Unicode Technical Standards and Reports)
《Unicode技術說明書》(Unicode Technical Notes)等等。
成就