編碼(計算機術語)

定義

在計算機硬體中，編碼（coding）是指用代碼來表示各組數據資料，使其成為可利用計算機進行處理和分析的信息。代碼是用來表示事物的記號，它可以用數字、字母、特殊的符號或它們之間的組合來表示

將數據轉換為代碼或編碼字元，並能譯為原數據形式。是計算機書寫指令的過程，程式設計中的一部分。在地圖自動製圖中，按一定規則用數字與字母表示地圖內容的過程，通過編碼，使計算機能識別地圖的各地理要素。

n位二進制數可以組合成2的n次方個不同的信息，給每個信息規定一個具體碼組，這種過程也叫編碼。

數字系統中常用的編碼有兩類，一類是二進制編碼，另一類是十進制編碼。

GB編碼標準中，比較常用的是GB2312和GBK兩種，GB2312是GBK的一個子集，GB2312編碼範圍是 0xA1A1 - 0xFEFE ，如果純粹的 GB2312編碼，處理起來是十分簡單的，但處理GBK字元集時有些小的提示，先說說GBK編碼的標準吧：

GBK 採用雙位元組表示，總體編碼範圍為 8140-FEFE，首位元組在 81-FE 之間，尾位元組在 40-FE 之間，剔除 xx7F 一條線。總計 23940 個碼位，共收入 21886 個漢字和圖形符號，其中漢字（包括部首和構件）21003 個，圖形符號 883 個。

1. 漢字區。包括：

a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個，按原順序排列。

b. GB 13000.1 擴充漢字區。包括：

(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。

(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。

CJK 漢字在前，按 UCS 代碼大小排列；增補的漢字（包括部首和構件）在後，按《康熙字典》的頁碼/字位排列。

2. 圖形符號區。包括：

a. GB 2312 非漢字元號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外，

還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。

b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字元號、結構符和“○”排列在此區。計符號 166 個。

3. 用戶自定義區：分為(1)(2)(3)三個小區。

(1) AAA1-AFFE，碼位 564 個。