代理項:相關術語,釋義,在 Java 中的套用,

代理項（Surrogate），是一種僅在 UTF-16 中用來表示補充字元的方法。在 UTF-16 中，為補充字元分配兩個 16 位的 Unicode 代碼單元：

第一個代碼單元，被稱為高代理項代碼單元或前導代碼單元；

第二個代碼單元，被稱為低代理項代碼單元或尾隨代碼單元。

這兩個代碼單元組合在一起，就被稱為代理項對。

基本介紹

相關術語,釋義,在 Java 中的套用,

關於代理項的概念，通俗來講，就是為補充字元找兩個“代理人”。由於補充字元體格壯碩，到了 UTF-16 這個地方就需要占用兩個 16 位的座位。為了避免因“占座糾紛”導致意外發生，就需要為補充字元找來兩個“代理人”，代替他來占用兩個座位，這樣就能皆大歡喜了。

代理項僅在 UTF-16 中用來表示補充字元，是指：

以下內容來自 Java API 文檔：

char 數據類型以及 Character 對象封裝的值，都是基於最初的 Unicode 規範，該規範將字元定義為固定寬度的 16 位實體。隨著 Unicode 標準的不斷更新，超過 16 位的字元已被允許表示。合法代碼點的範圍已擴展到 U+10FFFF。

在 char 數組、String 類和 StringBuffer 類中，都採用 UTF-16 來表示字元。在這種表示法中，補充字元被表示為一對 char 值，第一個來自高代理項區間（\uD800 - \uDBFF），第二個來自低代理項區間（\uDC00 - \uDFFF）。

因此，char 值可表示 BMP 代碼點、代理項代碼點或 UTF-16 編碼的代碼單元。而所有的 Unicode 代碼點，包括補充代碼點，則用 int 值來表示。int 值中的低 21 位用來表示 Unicode 代碼點，而高 11 位必須為零。