簡介
由於香港電腦業界不斷要求政府迎合本地需要,提出官方的字元集方案,以便與政府進行檔案來往,於是香港政府便在1995年把這個內部使用的標準公開。到了1999年,此字集增加到四千多字,並改為現名。字元集所收羅的字,主要包括香港的地名、人名用
漢字、
粵語漢字及
異體字,也有小部份
簡體字。除此之外,此字元集亦把
倚天中文系統收錄的日語平假名、
片假名及
俄語西里爾字母包括在內。此字元集由中文界面諮詢委員會管理,仍在不斷擴編之中。最新版本為 2005 年 5 月推出的
HKSCS-2004,收錄 4,941 個字元。
源起
1980年代中期,
台灣的中文電腦的
通行內碼為
Big5 編碼。1990年代初期,香港電腦套用逐漸普及,而政府各部門也電腦化。和
台灣一樣,香港也是使用繁體中文的地方,是故也採用了 Big5 編碼。可是 Big5 碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,於是香港政府各部門使用 Big5 的外字區,自行補上這些字,並在政府內部使用。香港業界也不斷要求政府,本地需要一套標準字元集來作電子檔案來往。到1995年,
網際網路在香港起步,而政府也推出了自己的網站。各人電腦的中文系統雖然都用 Big5 編碼, 但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確的字元。香港政府於是把內部使用的 Big5 外字集公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字元,並把這套字命名為「
政府通用字型檔」。
負責機構
負責整套字元集管理的為
中文界面諮詢委員會, 簡稱「
中諮會」, 英文名 Chinese Language Interface Adv
isory Committee (CLIAC)。1999年5月由前資訊科技署成立, 現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩個工作小組: 中文電腦用字工作小組、中文資訊科技工作小組。中文電腦用字工作小組審核待增收字元, 納入和編配碼位等工作;中文資訊科技工作小組解決技術問題及與國際標準 ISO/IEC 10646(簡稱 ISO10646)接軌等工作。各組成員來自學術界、語言學界、出版界和資訊科技界等。
字元分類
在 HKSCS-2004 版本,
漢字字元共 4500 個,其中 3353 字可在大型的字典(如《
漢語大字典》)中查到,包括簡化字、
異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有
粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形
部首、附形、
訛字。有些字來自
入境事務處、公司註冊處、
稅務局、地政總署。
部首、畫數、讀音
香港增補字元集在 2005 年才有畫數、
部首、粵音等資料給用戶參考, 還說明方便檢索, 而非作為規範標準。(
漢字的
部首在不同的字典中, 歸部也不盡相同)
編碼和 Big5 的關係
香港增補字元集當初因為是補充 Big5 的收字不足,使用其外字區而發展的,所以受制於 Big5 的編碼架構,外字的總數最多只能到 6217 個(每區塊 157 字,有 39 區塊半)。除去已用碼位,剩下千餘個碼位,其中有部分會保留給用戶造字。
早期的
倚天中文系統、國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字);製作這些中文系統的廠商又對字形、字型缺乏認識,有些字會因為字型不同而字形稍有差別,分別編進了兩個碼位中。又有同一字有系統區及造字區兩個碼位,有些聯綿詞只收其一不收其二;這個問題帶到了政府通用字型檔和香港增補字元集中,字集因要反向相容而跳過了一些碼位。
Big5 原來的編碼,只有
漢字、標點、
注音符號等字元及少數圖形,後來經過
台灣廠商的增收,多了 7 個「
倚天字」(如里、恆)及日文的假名,最後這批字元又被香港增補字元集收入。
香港增補字元集所使用的 Big5 的外字區分幾個區段:
「造字區一」(FA40 — FEFE):早期的 GCCS 字元集已經填滿這一段。
「造字區二」(C6A1 — C8FE):
倚天用了這段來放日文假名等符號。這些符號在 HKSCS 1999 年的版本被收納。
「造字區三」(8140 — A0FE):香港增補字元集把這段開頭的 (8140 — 84FE) 保留給用戶,新增的字元只用其餘的碼位。
「廠商造字區」(F9D6 — F9FE):這段開始的七個碼位用來存放里、恆等「
倚天字」,之後的碼位被
微軟的繁體中文
Windows 用來存放制表符號。後來 HKSCS 1999 年版本將之全部收納。
可是一般提及 HKSCS 的檔案,包括來自香港政府的,都沒有註明 HKSCS 以外的一般
繁體字編碼(即是 Big5 本身)使用哪個版本。Big5 在 2003 年前就只有一個版本,不會造成混淆,但 HKSCS-2004 的檔案仍沒有指定 Big5 部份是 2003 年之後還是之前的版本,雖然到目前為止並沒有任何系統使用 Big5-2003。
編碼和和 ISO 10646/Unicode 的關係
1995 年的政府通用字型檔本來是內部使用的,到 1999 年才成立中諮會專門去負責增收及審核字元的工作,並與 ISO 10646 接軌。中諮會的成員會把香港增補字元集交到
ISO 的表意文字小組中,儘量讓其所有字元納入國際標準。表意文字小組會定期開會審議
漢字的收納等工作, 成員是來自世界各地的專家。
香港字在 Big5HKSCS 內的碼位,都能對應到 ISO 10646 中日韓
漢字區段中的碼位,或 Private Use Area(用戶造字區,簡稱
PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓
漢字擴展區內。將所有已納入的 HKSCS 字元搬到正式中日韓
漢字擴展區段(非 PUA 區段)的工作在 2005 年完成,對應於 ISO 10646:2003 的第一修訂版,相應的 Unicode 版本為 Unicode 4.1。
不過,因為目前流傳極多使用舊版 HKSCS 的系統產生出來的檔案,為了方便過渡,在 HKSCS 的定義中,在 Unicode PUA 所分配的字元位置會予以保留,不會給新加入而且未分配正式 Unicode 位置的字元使用。
字型的提供
最初的香港字,是由早期的
台灣廠商 (像
倚天等) 和用戶自行造字所得。因為大部份都不合標準和沒有流通,所以沒有沿用至今。後來,
Truetype 字型盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字型檔的字型方面,因為 HKSCS 某些字和大陸
GBK 碼有衝突,廠商經常會因市場關係捨棄一些香港字。
香港政府的「數碼 21」網頁 (詳見下面的外部連結) 有提供由
華康授權的香港字參考
宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字型的存在。
目前由商業主導的情況漸有改變,近況如下:
開放源碼字型
文鼎在 1999 年捐了四套字型 (繁簡明體和楷書) 給自由軟體界,但當中沒有香港字。後來高盛華 (Arne Götje ) 發起計畫將繁簡體合併,稱之為
CJK Unifonts。當中,Akar、Zunix 等人在 2004 年末另外發起香港 freefonts 計畫,將香港字加入CJK Unifonts之內,到了 2005-09-01 完成將 HKSCS 2004 加入 CJK Unifonts 的工作。目前 CJKUnifonts 已被收錄在各大
Linux distribution 之內。
商業字型
最早一套宣稱支援 HKSCS 2004 的字型,是
華康「金蝶 2006 H.K. Edition」,在 2005-11-14 推出。
增收字元
「中諮會」會讓各界申請新字元,不過要經過審核批准,才會給字元編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過
網際網路傳送的字。另外,這些增收的字元不一定能夠收錄在 Unicode 之內,例如一些能夠表示成 Unicode 複合字元的字或符號,便不會收錄。
另外因為現在餘下的 big5 相容碼位不多(2005 年 9 月為止只剩 487 個未用),中文界面諮詢委員會暫定打算在 2007-08 年停止為字元提供 big5 碼位,並在之前儘量協助業界和一般用戶過渡至 Unicode。
作業系統的支援
香港增補字元集開始時只有 Windows 版本的 Big5 編碼, 後來與 ISO 10646 接軌後, 才開始在 Linux、MacOS 等系統中使用。理論上因為 ISO 10646 已收納香港增補字元集, 任何支援 ISO 10646 的系統都可使用香港字。但實際上,許多舊的程式內部是使用 UCS-2(每個字占 2
位元組)儲存字串,無法表示許多放在基本多文種平面 (簡稱 BMP) 以外的所有香港字。只有使用 UCS-4(每個字占 4
位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。
根據 Microsoft 的網頁,在 Longhorn 或以後的版本將不再支援 HKSCS-2004 的 Big5 擴展編碼(通常稱為 Big5HKSCS),而只使用 Unicode 中的香港字支援。
至於 HKSCS-2001,可以在
微軟的網頁(請看下面的外部連結)中下載香港增補字元集;它支援 Windows 98、NT、2000 和 XP。可是安裝該套件和其它軟體(例如
Office)需要有一定的次序,而且它和別的 Big5 外字集並不相容,必須先瀏覽有關檔案方可安裝。
自從 glibc 在 2000 年加入香港字 (同時包括 big5hkscs 和 unicode 碼兩者的轉換表) 的支援後,就幾乎沒有再更新過,其中的 Big5 部份更是來自年代久遠的 Big5 / Unicode 轉換碼錶,當中有不少錯誤之處,令一些檔案和網頁無論使用 Big5 還是 Big5HKSCS 轉換至 Unicode 都會出現錯誤。暫時未有任何更新。相反地,如果單是使用 unicode 作為系統編碼,處理香港字則沒有問題。
桌面環境方面,
KDE 3.x 桌面因為使用 QT 3.x,而 QT 3.x 內部使用 UCS-2 儲存字元,因此 KDE 3.x 只能有限度地顯示少部份香港字。這情況期望在 KDE 4.0 解決。
GNOME 沒有這方面的問題,只要是使用 Unicode,在 2004 至 05 年間就已經能夠顯示所有
BMP 以外的字元。
Mac OS X 10.0 至 10.2 版本支援的版本為 HKSCS 1999,暫時未知道最新版的 Mac OS X 支援哪個版本。
使用地區
除了香港使用香港字以外,現在
台灣的中文電腦也有少部分使用它的 (台灣也有自己的一兩套外字集)。而同樣使用
粵語和
繁體字的澳門當然也使用這套字集,也許還有其它華語地區會使用。
評價
香港增補字元集因為一直需要和 Big5 碼相容,所以可以說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港政府打算在 2007-08 年放棄它的 Big5 編碼。如果系統使用 Unicode 編碼,用它反而較好。當今的趨勢是使用 Unicode,它有足夠的字元,幾乎可以滿足文字學家、字典專家的用字要求。但因為相容性的關係,要將整個系統由使用 Big5 碼轉換至 Unicode 頗費時,因此還會有人暫時不願意轉換。