標準
ISO/IEC 10646標準由
國際標準化組織(ISO)和
國際電工委員會(IEC)旗下的
編碼字元集委員會(ISO/IECJTC 1/SC 2-Coded Character Sets)發布,用來實現全球所有文種的統一編碼。該標準被廣泛套用於電子化地表示、傳輸、交換、處理、儲存、輸入及顯現世界上各種語言的書面形式以及附加符號。
國際標準化組織於1993年發表 ISO/IEC 10646 國際編碼標準的首個版本,第一部分名叫ISO/IEC 10646-1:1993 - Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane。它收錄了 20902 個漢字表意字元。2000年10月發表了第一部分的新版,名叫ISO/IEC 10646-1:2000 - Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and Basic Multilingual Plane,新增收了6,582個漢字表意字元於擴展A區里。ISO/IEC 10646 的第二部分在 2001 年發表,名叫ISO/IEC 10646-2:2001 - Information technology -- Universal Multiple-Octet Coded Character Set (UCS) -- Part 2: Supplementary Planes ,增收了 42711個漢字表意字元於擴展區B里。
重要性
為了在電腦及電子裝置內處理各地區本身的字元,世界各地採用了不同的編碼標準。例如
香港及
台灣使用
繁體字,通常採用
大五碼。中國內地使用
簡體字,通常採用
國標碼。可惜,各種不同的編碼標準互不兼容,一個編碼在不同的編碼標準內可能代表不同的字元。
當某台電腦上發出的電子資訊傳到另一電腦上時,假若兩台電腦採用了不同的編碼標準,即使通過
轉碼,也可能會出現
亂碼或某些
字元不能正確地顯示等問題。而制訂 ISO/IEC 10646 國際編碼標準的目的,便是為了提供一套統一的
字元編碼標準,包含世界上所有文字,使電子通訊及資料交換不需
轉碼,並且可以在一個電腦平台上處理多種語言
文本。
採用該標準後,世界各地不同的電腦系統之間便能更準確地儲存、處理、傳遞及顯示各種語文的電子資訊,從而加強各地間電子資訊的流通及推動 電子交易的進行。
背景及現狀
ISO 10646由ISO/IEC JTC1/SC2/WG2制定。ISO/IEC JTC1是一個信息技術(IT) 方面的聯合委員會,由
國際電工委員會(IEC)與
國際標準化組織(ISO)協作而構成的。目的是協調IEC和ISO在IT行業中的相關標準。 ISO/IEC JTC1/SC2 是負責編碼
字元集的國際標準化組織分支機構,由ISO/IEC JTC1建立。 其下有一個稱為ISO/IEC JTC1/SC2/WG2的工作組。WG2國際標準化組織工作組 的任務就是為了制定編碼
字元集UCS - 通用多八位編碼字元集 - 亦即是ISO/IEC 10646標準。ISO/IEC JTC1/SC2/WG2/IRG,簡稱IRG,是表意字元工作小組, 負責與ISO/IEC 10646中表意文字有關的工作。
ISO 10646國際編碼標準的2000年版本,ISO/IEC 10646-1:2000,已於2000年10月發表。當中包括ISO/IEC 10646-1:1993內的20,902個漢字字元之外,又增補了 6,582個漢字字元(在擴展區A)。所有在
香港增補字元集(HKSCS)中包含,但仍未在現有ISO 10646標準中收納的字元,已被提交到表意字元工作小組 (IRG)以加入未來的ISO/IEC 10646版本中。
擴充ISO/IEC 10646-1:1993的表意
字元集工作是分階段進行的,依次為擴展區A、 擴展區B及擴展區C等階段。擴展區A收納了6,582個
漢字字元,已於2000年10月發表。擴展區B亦已隨ISO/IEC 10646-1:2001發表,其字元主要來源於《
康熙字典》、《
漢語大字典》內的
漢字。表意文字工作小組正致力於擴展區C的工作,發表日期待定。
與Unicode
Unicode是統一碼的意思,由一個名為
Unicode聯盟的學術學會的機構制訂的
字元編碼系統。Unicode為世界上的每個字元提供了平台無關、程式無關、語言無關的唯一編碼。
Unicode與ISO/IEC 10646國際編碼標準從內容上來說是同步一致的。在1991年,Unicode學術學會與ISO國際標準化組織決定共同制訂一套適用於多種語言
文本的通用編碼標準。
Unicode與ISO/IEC 10646國際編碼標準於1992年1月正式合作發展一套通用編碼標準。自此以後,兩個組織便一直緊密合作,同步發展
Unicode及ISO/IEC 10646 國際編碼標準。
Unicode3.0版本與ISO/IEC 10646 國際編碼標準所包含的
字元及使用的編碼是相同的,包括東亞的
漢字字元。統一碼3.0版本已於2000年2月由Unicode聯盟正式推出,當中收納了49,194個來自世界各地不同語言的
字元,其中包含27,484個
漢字字元。此外,國際標準化組織提供 ISO 10646 國際編碼標準內的
字元及編碼資料,Unicode 學術學會則對這些字元及編碼資料提出套用的方法以及語義資料作補充。
在Unicode3.1版已於2001年發表,除了Unicode 3.0 版中的49194個
字元,又增加了44,946個新字元,其中42,711個為
漢字字元。
Unicode 7.0已於2014年6月16日發布,與ISO/IEC 10646:2012標準加上修訂版1和修訂版2同步,新增2,834個字元,總計112,956個字元,其中漢字字元74,616個。