點代碼

點代碼

點代碼又稱代碼點。用於編碼抽象字元的整數範圍叫做代碼空間,其中的特殊整數叫做代碼點。當抽象字元被映射或在代碼空間中被指定為特殊代碼點時,就被叫做編碼字元。

基本介紹

  • 中文名:點代碼
  • 外文名:code point
  • 別稱:代碼點
  • 定義:特殊整數
  • 系統:計算機
  • 套用學科:計算機原理
代碼點類型,代碼點的分配,

代碼點類型

代碼點的分類方式有多種,不是所有被指派的代碼點都代表抽象字元,僅有圖表、格式、控制和私用代碼點可以做到。代理和非字元被指定為代碼點,但不能指定為抽象字元。保留的代碼點可以被指派,任何一個代碼點都可以被指派到以後使用的標準版本中。一般分類提供了圖解字元的精細分類,同樣區別於其他基本類型(除了非字元和保留字元)。在Unieode字元資料庫中定義的屬性為Unicode代碼點分類系統提供了不同的分類。
控制代碼:65個代碼點(U+0000..U+001F和U+007F..U+009F)作為控制代碼被保留,因為與ISO/IEC 2022框架C0和C1控制代碼相兼容。
非字元:66個代碼點不可對字元進行編碼。非字元包括U+FDD0..U+FDEF和以
結尾的代碼點,即U+FFFE,U+FFFF,U+1FFFE,U+1FFFF,...U+10FFFE,U+10FFFF。
自行使用:三個區域的代碼點保留為自行使用。這些區域字元不會被Unicode標準定義。這些代碼點可以用於任何字元,但是成功轉換需要傳送者和接收者的一致解釋。
替代:2048個代碼點被指派為替代代碼點,這些代碼點經常以UTF一16編碼形式使用。
受限轉換:未被指派到抽象字元中的代碼點在轉換中是受限制的。
1、代理代碼點不能以Unicode編碼形式轉換。由於代理代碼點和Unicode值不一致,因而不能以任何Unicode編碼形式表示。
2、無字元代碼點因內部使用而保留,它們不能被轉換。然而,在Unicode編碼形式中它們卻能很好地表示,並且可以在編碼形式之間轉化。這就使無字元代碼能夠以Unicode編碼形式保存,即使它們的設計是用於外部轉換的。
3、所有實現操作需要保存儲存的代碼點,因為在新版的Unicode標準的執行過程中,它們可能會產生。例如,假設一個用戶在使用Unicode 5.0系統,第二個用戶在使用Unicode 3.2系統,第一個用戶發給第二個用戶包含有Unicode 5.0中新指令代碼點的檔案,而這些代碼點在Unicode 3.2版中卻沒有被指派。這時,第二個用戶可以編輯該檔案,不改變保存的代碼,然後即可發出去。在這種情況下,第二個用戶就可以轉換被保存的代碼點。
代碼點語義:大部分代碼點的語義由Unicode標準建立,但控制、私用、非字元代碼除外。控制代碼的語義由其他標準或協定(如ISO/IEC 6429)決定,但是仍有一些控制代碼的語義在Unicode標準中有特殊的定義。私用字元的語義在Unicode標準的範圍之外,它的使用由個人協定決定,例如雙方之間的協定。非字元只在內部使用中才有語義。

代碼點的分配

Unicode標準中的代碼點按照以下原則進行分配。
1、如果有一個公認的文字標準,Unicode標準一般會對這個文字中相關順序的字元遵循這一標準。
2、前256個代碼遵循ISO/IEC 8859—1(拉丁語1),7位的ASCII(ISO/IEC 646 IVR)碼占據前128個代碼位置。
3、具有共同特徵的字元是相鄰的。舉例來說,基本的阿拉伯語字元塊是按照ISO/IEC 8859-6來構建模型的。在波斯語、烏爾都語等中使用的阿拉伯文字,不包含在ISO/IEC 8859—6中,而是分配到基本阿拉伯字元代碼塊後。從右至左書寫的文字也安排在一起。
4、在可能的範圍內,文字分配是為了不超越128代碼點邊界線,對於補充字元,需要運用一個不超越1024代碼點界限的額外約束,這些制約因素更好地最佳化了創建表格的任務,以便訪問字元屬性。
5、代碼代表了字母、標點、符號以及讀音符號,一般情況下,它們在多種語言或者文字中使用,並且一起分布在相應的位置上。
6、Unicode標準並沒有把字元代碼分配與依賴語言校勘或計算機輔助軟體工程相關聯。
7、CJK統一象形文字安排在三部分中,每一部分都是根據象形字安排的。這樣的順序是以基本的筆畫數來排序的。

相關詞條

熱門詞條

聯絡我們