詞袋模型

特點

詞袋模型模型下，像是句子或是檔案這樣的文字可以用一個袋子裝著這些詞的方式表現，這種表現方式不考慮文法以及詞的順序。最近詞袋模型也被套用在電腦視覺領域。

詞袋模型被廣泛套用在檔案分類，詞出現的頻率可以用來當作訓練分類器的特徵。

關於"詞袋"這個用字的由來可追溯到澤里格·哈里斯於1954年在Distributional Structure的文章。

下列檔案可用詞袋錶示:

以下是兩個簡單的檔案:

(1) John likes to watch movies. Mary likes movies too.

(2) John also likes to watch football games.

基於以上兩個檔案，可以建構出下列清單:

[    "John",    "likes",    "to",    "watch",    "movies",    "also",    "football",    "games",    "Mary",    "too"]

此處有10個不同的詞，使用清單的索引表示長度為10的向量:

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

每個向量的索引內容對應到清單中詞出現的次數。

舉例來說，第一個向量(檔案一)前兩個內容索引是1和2，第一個索引內容是"John"對應到清單第一個詞並且該值設定為1，因為"John"出現一次。

此向量表示法不會保存原始句子中詞的順序。該表示法有許多成功的套用，像是郵件過濾。

在上述的範例，檔案向量包含term頻率。在IR和文字分類常用不同方法量term權重。常見方法為tf-idf。

分類一個郵件訊息，分類一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡，之後使用貝氏機率去決定哪個袋子是較有可能的。