charset

charset

字元集(Charset):是一個體系援助的通盤籠統字元的集合。字元是各種文字和符號的總稱,包括各國度文字、標點符號、圖形符號、數字等。

基本介紹

  • 中文名:字元集
  • 外文名:charset
  • 屬於:體系援助的通盤籠統字元的集合
  • 字元:各種文字和符號的總稱
示例,詳情,meta charset網頁字元編碼簡寫,網頁charset屬性,使用說明,屬性值,

示例

使用UTF8編碼(國際化編碼)
<meta http-equiv="content-type" content="text/html; charset=UTF-8" />
使用中文gbk編碼
<meta http-equiv="content-type" content="text/html; charset=gbk" />
使用簡體中文gb18030編碼
<meta http-equiv="content-type" content="text/html; charset=gb18030" />
XHTMLHTML5中使用
<meta charset="UTF-8" />
<meta charset="gbk" />
<meta charset="gb18030" />

詳情

我們做網頁時,如果指定的 Charset 是 GB2312,那么就不應該在網頁中出現繁體字,因為 GB2312 標準只有幾千個簡體的中文字。如果我們的網頁編碼是 UTF-8,我們就不要指定字元集是 GB2312,因為雖然 UTF-8 編碼對應的 UTF-8 字元集包含了 GB2312 的字元,但同一個字元在兩個字元集中的編號不一樣。
下面這些編碼方式,比如:中文 GBK ,繁體中文 Big5,日文 EUC-JP,韓文 EUC-KR 等,每種語言的編碼方式是不同的,所以需要使用charset為網頁提供了一種編碼方式,否則頁面很可能出現亂碼
UTF-8 是國際字元編碼,也就是獨立於任何一種語言,任何語言都可以使用。
UTF-8編碼則是用以解決國際上字元的一種多位元組編碼,它對英文使用8位(即一個位元組),中文使用24位(三個位元組)來編碼。對於英文字元較多的論壇則用UTF-8節省空間。GBK包含全部中文字元;UTF-8則包含全世界所有國家需要用到的字元。GBK是在國家標準GB2312基礎上擴容後兼容GB2312的標準(好像還不是國家標準)UTF-8編碼的文字可以在各國各種支持UTF8字元集的瀏覽器上顯示。比如,如果是UTF8編碼,則在外國人的英文IE上也能顯示中文,而無需他們下載IE的中文語言支持包。 所以,對於英文比較多的論壇 ,使用GBK則每個字元占用2個位元組,而使用UTF-8英文卻只占一個位元組。UTF8是國際編碼,它的通用性比較好,外國人也可以瀏覽論壇,GBK是國家編碼,通用性比UTF8差,不過UTF8占用的資料庫比GBK大。
這裡有必要簡述一下幾種中文字型的區別: GB2312,GBK,GB18030。這是市面上GB系列三種中文的編碼方式,三者越往後形成越晚,字元越多(後面版本全部兼容之前版本)。GB2312隻支持簡體,共7445個字元。GBK有21886個漢字字元,支持繁體中文,GB18030就更多,甚至支持一些少數民族文字,是現在非手持跟植入式設備標準。現在仍有很多手持設備是GB2312的標準。這種情況用GB18030解碼就會出現錯誤。

meta charset網頁字元編碼簡寫

一、utf-8編碼原始代碼與簡化縮寫
1、原utf-8 HTML編碼標籤代碼如下:
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
2、可以縮寫為<meta charset="utf-8">
3、縮寫兼容性:所有瀏覽器均兼容,無論新舊版本IE還是不同品牌瀏覽器均兼容。
二、gb2312(GBK)編碼原始代碼與簡化縮寫
1、原gb2312 HTML編碼標籤代碼如下:
<meta http-equiv="Content-Type" content="text/html;charset=gb2312"/>
2、可以縮寫為<meta charset="gb2312">或<meta charset="gbk">
3、縮寫兼容性:所有瀏覽器均兼容,無論新舊版本IE還是不同品牌瀏覽器均兼容。至於GBK編碼簡寫時候編碼填寫為gb2312還是填寫為gbk,DIVCSS5認為沒有什麼區別,均可。為了符合大家都使用gbk字元編碼,大家可以寫為“gb2312”。

網頁charset屬性

使用說明

當外部腳本檔案中的字元編碼與 HTML 文檔中的編碼不同時,會用到 charset 屬性。

屬性值

charset屬性值如下:
描述
規定外部腳本檔案的字元編碼。一些常用的值:
  • "ISO-8859-1" - 拉丁字母表的標準編碼
  • "UTF-8" - Unicode 字元編碼。與 ASCII 兼容

相關詞條

熱門詞條

聯絡我們