Bagofwords模型

Bagofwords模型,也叫做“詞袋”,在信息檢索中,Bag of words model假定對於一個文本,忽略其詞序和語法,句法,將其僅僅看做是一個詞集合,或者說是詞的一個組合,文本中每個詞的出現都是獨立的,不依賴於其他詞是否出現,或者說當這篇文章的作者在任意一個位置選擇一個辭彙都不受前面句子的影響而獨立選擇的。

Bag of words模型
這種假設雖然對自然語言進行了簡化,便於模型化,但是其假定在有些情況下是不合理的,例如在新聞個性化推薦中,採用Bag of words的模型就會出現問題。例如用戶甲對“南京醉酒駕車事故”這個短語很感興趣,採用bag of words忽略了順序和句法,則認為用戶甲對“南京”、“醉酒”、“駕車”和“事故”感興趣,因此可能推薦出和“南京”,“公車”,“事故”相關的新聞,這顯然是不合理的。
解決的方法可以採用SCPCD的方法抽取出整個短語,或者採用高階(2階以上)統計語言模型,例如bigram,trigram來將詞序保留下來,相當於bag of bigram和bag of trigram,這樣能在一定程度上解決這種問題。
簡言之,bag of words模型是否適用需要根據實際情況來確定。對於那些不可以忽視詞序,語法和句法的場合均不能採用bag of words的方法。

相關詞條

熱門詞條

聯絡我們