引言
ASCII收錄了空格及94個“可印刷字元”,足以給英語使用。但是,其他使用拉丁字母的語言(主要是
歐洲國家的語言),都有一定數量的附加符號字母,故可以使用ASCII及控制字元以外的區域來儲存及表示。
除了使用拉丁字母的語言外,使用
西里爾字母的
東歐語言、希臘語、泰語、現代阿拉伯語、希伯來語等,都可以使用這個形式來儲存及表示。
各種ISO 8859字元集
ISO/IEC 8859-2 (Latin-2) -
中歐語言
ISO/IEC 8859-3 (Latin-3) -
南歐語言。世界語也可用此
字元集顯示。
ISO/IEC 8859-4 (Latin-4) -
北歐語言
ISO/IEC 8859-5 (Cyrillic) - 斯拉夫語言
ISO/IEC 8859-6 (Arabic) - 阿拉伯語
ISO/IEC 8859-7 (Greek) - 希臘語
ISO/IEC 8859-8 (Hebrew) - 希伯來語(視覺順序)
ISO 8859-8-I - 希伯來語(邏輯順序)
ISO/IEC 8859-10 (Latin-6 或 Nordic) - 北日耳曼語支,用來代替Latin-4。
ISO/IEC 8859-11 (Thai) - 泰語,從
泰國的 TIS620 標準字集演化而來。
ISO/IEC 8859-13 (Latin-7 或 Baltic Rim) - 波羅的語族
ISO/IEC 8859-14 (Latin-8 或 Celtic) - 凱爾特語族
ISO/IEC 8859-15 (Latin-9) - 西歐語言,加入Latin-1欠缺的芬蘭語字母和大寫法語重音字母,以及歐元(?符號。
ISO/IEC 8859-16 (Latin-10) -
東南歐語言。主要供羅馬尼亞語使用,並加入歐元符號。
由於英語沒有任何重音字母(不計外來詞),故可使用以上十五個字集中的任何一個來表示。
至於德語方面,因它除了 A-Z, a-z 外,只用 Ä, Ö, Ü, ä, ö, ß, ü 七個字母,而所有拉丁字集(1-4, 9-10, 13-16)均有此七個字母,故德語可使用以上十個字集中的任何一個來表示。
此系列中沒有-12號的原因是,此計畫原本要設計成一個包含
塞爾特語族字元集的“Latin-7”,但後來塞爾特語族變成了ISO 8859-14 / Latin-8。亦有一說謂-12號本來是預留給
印度天城體梵文的,但後來卻擱置了。
基本結構
每個字集定義最多96個字母或符號,在0xA0-0xFF根據不同字元集放入不同的字元。
ISO/IEC 8859十五個字元集的比較 Bin Oct Dec Hex 1 2 3 4 5 6 7 8 9 10 11 13 14 15 16
10100000 240 160 A0 NBSP
10100001 241 161 A1 ¡ Ą Ħ Ą Ё ‘ ¡ Ą ก ” Ḃ ¡ Ą
10100010 242 162 A2 ¢ ˘ ˘ ĸ Ђ ’ ¢ ¢ Ē ข ¢ ḃ ¢ ą
10100011 243 163 A3 £ Ł £ Ŗ Ѓ £ £ £ Ģ ฃ £ £ £ Ł
10100100 244 164 A4 ¤ ¤ ¤ ¤ Є ¤ ?¤ ¤ Ī ค ¤ Ċ ??
10100101 245 165 A5 ¥ Ľ Ĩ Ѕ ₯ ¥ ¥ Ĩ ฅ „ ċ ¥ „
10100110 246 166 A6 ¦ Ś Ĥ Ļ І ¦ ¦ ¦ Ķ ฆ ¦ Ḋ Š Š
10100111 247 167 A7 § § § § Ї § § § § ง § § § §
10101000 250 168 A8 ¨ ¨ ¨ ¨ Ј ¨ ¨ ¨ Ļ จ Ø Ẁ š š
10101001 251 169 A9 © Š İ Š Љ © © © Đ ฉ © © © ©
10101010 252 170 AA ª Ş Ş Ē Њ ͺ × ª Š ช Ŗ Ẃ ª Ș
10101011 253 171 AB « Ť Ğ Ģ Ћ « « « Ŧ ซ « ḋ « «
10101100 254 172 AC ¬ Ź Ĵ Ŧ Ќ ، ¬ ¬ ¬ Ž ฌ ¬ Ỳ ¬ Ź
10101101 255 173 AD ­ ­ ­ ­ ­ ­ ­ ­ ­ ­ ญ ­ ­ ­ ­
10101110 256 174 AE ® Ž Ž Ў ® ® Ū ฎ ® ® ® ź
10101111 257 175 AF ¯ Ż Ż ¯ Џ ― ¯ ¯ Ŋ ฏ Æ Ÿ ¯ Ż
10110000 260 176 B0 ° ° ° ° А ° ° ° ° ฐ ° Ḟ ° °
10110001 261 177 B1 ± ą ħ ą Б ± ± ± ą ฑ ± ḟ ± ±
10110010 262 178 B2 ² ˛ ² ˛ В ² ² ² ē ฒ ² Ġ ² Č
10110011 263 179 B3 ³ ł ³ ŗ Г ³ ³ ³ ģ ณ ³ ġ ³ ł
10110100 264 180 B4 ´ ´ ´ ´ Д ΄ ´ ´ ī ด “ Ṁ Ž Ž
10110101 265 181 B5 µ ľ µ ĩ Е ΅ µ µ ĩ ต µ ṁ µ ”
10110110 266 182 B6 ¶ ś ĥ ļ Ж Ά ¶ ¶ ķ ถ ¶ ¶ ¶ ¶
10110111 267 183 B7 · ˇ · ˇ З · · · · ท · Ṗ · ·
10111000 270 184 B8 ¸ ¸ ¸ ¸ И Έ ¸ ¸ ļ ธ ø ẁ ž ž
10111001 271 185 B9 ¹ š ı š Й Ή ¹ ¹ đ น ¹ ṗ ¹ č
10111010 272 186 BA º ş ş ē К Ί ÷ º š บ ŗ ẃ º ș
10111011 273 187 BB » ť ğ ģ Л ؛ » » » ŧ ป » Ṡ » »
10111100 274 188 BC ¼ ź ĵ ŧ М Ό ¼ ¼ ž ผ ¼ ỳ Œ Œ
10111101 275 189 BD ½ ˝ ½ Ŋ Н ½ ½ ½ ― ฝ ½ Ẅ œ œ
10111110 276 190 BE ¾ ž ž О Ύ ¾ ¾ ū พ ¾ ẅ Ÿ Ÿ
10111111 277 191 BF ¿ ż ż ŋ П ؟ Ώ ¿ ŋ ฟ æ ṡ ¿ ż
11000000 300 192 C0 À Ŕ À Ā Р ΐ À Ā ภ Ą À À À
11000001 301 193 C1 Á Á Á Á С ء Α Á Á ม Į Á Á Á
11000010 302 194 C2 Â Â Â Â Т آ Β Â Â ย Ā Â Â Â
11000011 303 195 C3 Ã Ă Ã У أ Γ Ã Ã ร Ć Ã Ã Ă
11000100 304 196 C4 Ä Ä Ä Ä Ф ؤ Δ Ä Ä ฤ Ä Ä Ä Ä
11000101 305 197 C5 Å Ĺ Ċ Å Х إ Ε Å Å ล Å Å Å Ć
11000110 306 198 C6 Æ Ć Ĉ Æ Ц ئ Ζ Æ Æ ฦ Ę Æ Æ Æ
11000111 307 199 C7 Ç Ç Ç Į Ч ا Η Ç Į ว Ē Ç Ç Ç
11001000 310 200 C8 È Č È Č Ш ب Θ È Č ศ Č È È È
11001001 311 201 C9 É É É É Щ ة Ι É É ษ É É É É
11001010 312 202 CA Ê Ę Ê Ę Ъ ت Κ Ê Ę ส Ź Ê Ê Ê
11001011 313 203 CB Ë Ë Ë Ë Ы ث Λ Ë Ë ห Ė Ë Ë Ë
11001100 314 204 CC Ì Ě Ì Ė Ь ج Μ Ì Ė ฬ Ģ Ì Ì Ì
11001101 315 205 CD Í Í Í Í Э ح Ν Í Í อ Ķ Í Í Í
11001110 316 206 CE Î Î Î Î Ю خ Ξ Î Î ฮ Ī Î Î Î
11001111 317 207 CF Ï Ď Ï Ī Я د Ο Ï Ï ฯ Ļ Ï Ï Ï
11010000 320 208 D0 Ð Đ Đ а ذ Π Ğ Ð ะ Š Ŵ Ð Đ
11010001 321 209 D1 Ñ Ń Ñ Ņ б ر Ρ Ñ Ņ ั Ń Ñ Ñ Ń
11010010 322 210 D2 Ò Ň Ò Ō в ز Ò Ō า Ņ Ò Ò Ò
11010011 323 211 D3 Ó Ó Ó Ķ г س Σ Ó Ó ำ Ó Ó Ó Ó
11010100 324 212 D4 Ô Ô Ô Ô д ش Τ Ô Ô ิ Ō Ô Ô Ô
11010101 325 213 D5 Õ Ő Ġ Õ е ص Υ Õ Õ ี Õ Õ Õ Ő
11010110 326 214 D6 Ö Ö Ö Ö ж ض Φ Ö Ö ึ Ö Ö Ö Ö
11010111 327 215 D7 × × × × з ط Χ × Ũ ื × Ṫ × Ś
11011000 330 216 D8 Ø Ř Ĝ Ø и ظ Ψ Ø Ø ุ Ų Ø Ø Ű
11011001 331 217 D9 Ù Ů Ù Ų й ع Ω Ù Ų ู Ł Ù Ù Ù
11011010 332 218 DA Ú Ú Ú Ú к غ Ϊ Ú Ú ฺ Ś Ú Ú Ú
11011011 333 219 DB Û Ű Û Û л Ϋ Û Û Ū Û Û Û
11011100 334 220 DC Ü Ü Ü Ü м ά Ü Ü Ü Ü Ü Ü
11011101 335 221 DD Ý Ý Ŭ Ũ н έ İ Ý Ż Ý Ý Ę
11011110 336 222 DE Þ Ţ Ŝ Ū о ή Ş Þ Ž Ŷ Þ Ț
11011111 337 223 DF ß ß ß ß п ί ‗ ß ß ฿ ß ß ß ß
11100000 340 224 E0 à ŕ à ā р ـ ΰ א à ā เ ą à à à
11100001 341 225 E1 á á á á с ف α ב á á แ į á á á
11100010 342 226 E2 â â â â т ق β ג â â โ ā â â â
11100011 343 227 E3 ã ă ã у ك γ ד ã ã ใ ć ã ã ă
11100100 344 228 E4 ä ä ä ä ф ل δ ה ä ä ไ ä ä ä ä
11100101 345 229 E5 å ĺ ċ å х م ε ו å å ๅ å å å ć
11100110 346 230 E6 æ ć ĉ æ ц ن ζ ז æ æ ๆ ę æ æ æ
11100111 347 231 E7 ç ç ç į ч ه η ח ç į ็ ē ç ç ç
11101000 350 232 E8 è č è č ш و θ ט è č ่ č è è è
11101001 351 233 E9 é é é é щ ى ι י é é ้ é é é é
11101010 352 234 EA ê ę ê ę ъ ي κ ך ê ę ๊ ź ê ê ê
11101011 353 235 EB ë ë ë ë ы ً λ כ ë ë ๋ ė ë ë ë
11101100 354 236 EC ì ě ì ė ь ٌ μ ל ì ė ์ ģ ì ì ì
11101101 355 237 ED í í í í э ٍ ν ם í í ํ ķ í í í
11101110 356 238 EE î î î î ю َ ξ מ î î ๎ ī î î î
11101111 357 239 EF ï ď ï ī я ُ ο ן ï ï ๏ ļ ï ï ï
11110000 360 240 F0 ð đ đ № ِ π נ ğ ð ๐ š ŵ ð đ
11110001 361 241 F1 ñ ń ñ ņ ё ّ ρ ס ñ ņ ๑ ń ñ ñ ń
11110010 362 242 F2 ò ň ò ō ђ ْ ς ע ò ō ๒ ņ ò ò ò
11110011 363 243 F3 ó ó ó ķ ѓ σ ף ó ó ๓ ó ó ó ó
11110100 364 244 F4 ô ô ô ô є τ פ ô ô ๔ ō ô ô ô
11110101 365 245 F5 õ ő ġ õ ѕ υ ץ õ õ ๕ õ õ õ ő
11110110 366 246 F6 ö ö ö ö і φ צ ö ö ๖ ö ö ö ö
11110111 367 247 F7 ÷ ÷ ÷ ÷ ї χ ק ÷ ũ ๗ ÷ ṫ ÷ ś
11111000 370 248 F8 ø ř ĝ ø ј ψ ר ø ø ๘ ų ø ø ű
11111001 371 249 F9 ù ů ù ų љ ω ש ù ų ๙ ł ù ù ù
11111010 372 250 FA ú ú ú ú њ ϊ ת ú ú ๚ ś ú ú ú
11111011 373 251 FB û ű û û ћ ϋ û û ๛ ū û û û
11111100 374 252 FC ü ü ü ü ќ ό ü ü ü ü ü ü
11111101 375 253 FD ý ý ŭ ũ § ύ LRM ı ý ż ý ý ę
11111110 376 254 FE þ ţ ŝ ū ў ώ RLM ş þ ž ŷ þ ț
11111111 377 255 FF ÿ ˙ ˙ ˙ џ ÿ ĸ ’ ÿ ÿ ÿ
在0xA0的位置是“不換行空格”(no-break space)。
在0xAD的位置,大部分都放入了“選擇性連字號”(soft hyphen, 即只在一個文字在它的中間換行時才出現的連字號),若你使用的
瀏覽器支援選擇性連字號,上表將不會有任何顯示。
黃色的是ISO/IEC 8859-7:2003版本及ISO/IEC 8859-8:1999版本新增的符號。LRM是“左至右記號”(left-to-right mark, U+200E)、RLM是“右至左記號”(right-to-left mark, U+200F)。
綠色的是該字集未有定義該位置。
0x00-0x1F、0x7F、0x80-0x9F在此字元集中未有定義。(控制字元是由ISO/IEC 6429定義)。
ISO 8859與ISO-8859的關係
在ISO/IEC 8859-n之中,
國際標準化組織只替每個字元集定義了最多96個字元(0xA0-0xFF)。
ISO-8859-n(在ISO與8859之間加上一連
字號)則是由IANA根據ISO/IEC 8859-n所定義的編碼表。它除了ISO/IEC 8859-n的字元外,還包括ASCII(0x20-0x7E)字元及65個控制字元(0x00-0x1F及0x7E-0x9F)。
類似ISO 8859的編碼
ISO 8859-12這個號碼本來是預留給印度天城體梵文的,但最終未有定義。印度有它自己的編碼-ISCII。
JIS X 0201是日語片假名的字元集標準。它能與ISO 8859兼容。
VISCII是
越南語在本土以外的僑民最常用的字元集標準。但因越南語有超過一百個重音字母,故它不兼容在ISO 8859。越南國家標準另外有一個符合ISO8859標準的字元集,但字元需要組合,像泰文一樣。
ISO 6438是
非洲字母的字元集,但甚少被採納。
發展狀況
The ISO/IEC 8859 standard was maintained by ISO/IEC Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). In June 2004, WG 3 disbanded, and maintenance duties were transferred to SC 2. The standard is not currently being updated, as the Subcommittee's only remaining Working Group, WG 2, is concentrating on development of ISO/IEC 10646.
參見
由國際標準化組織出版的ISO/IEC 8859標準,可從以下網址獲取 (需要付費) ISO catalogue site 及 ANSI eStandards Store.
部分由ISO/IEC JTC 1/SC 2/WG 3出版的部分ISO/IEC 8859最後審核草案(PDF版本),可從WG 3網站獲取:
ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published Dec 15, 2001)
ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
ECMA standards, which in intent correspond exactly to the ISO/IEC 8859 character set standards, can be found at:
Standard ECMA-94: 8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
Standard ECMA-113: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet 3rd edition (December 1999)
Standard ECMA-114: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet 2nd edition (December 2000)
Standard ECMA-118: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (December 1986)
Standard ECMA-121: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet 2nd edition (December 2000)
Standard ECMA-128: 8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 2nd edition (December 1999)
Standard ECMA-144: 8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 3rd edition (December 2000)
GB/T 15273.1-1994 信息處理 八位單位元組編碼圖形字元集 第一部分:拉丁字母一
GB/T 15273.2-1995 信息處理 八位單位元組編碼圖形字元集 第二部分:拉丁字母二
GB/T 15273.3-1995 信息處理 八位單位元組編碼圖形字元集 第三部分:拉丁字母三
GB/T 15273.4-1995 信息處理 八位單位元組編碼圖形字元集 第四部分:拉丁字母四
GB/T 15273.7-1996 信息處理 八位單位元組編碼圖形字元集 第七部分:拉丁/希臘字母