具體內容:
傳統內容搜尋的基本過程為:由大規模文檔數據構成被搜尋語料庫,用戶構造出可表達其信息需求的查詢,查詢和文檔分別進行處理轉化成某種表示之後利用信息檢索模型進行相關度計算,最終將文檔按照計算得分的降序返回給用戶。從上述過程可以看出,信息檢索中要先對處理對象(文檔、查詢)進行表示,然後計算對象表示之間的相關度。對檢索對象進行表示並計算他們之間的相關度屬於信息檢索模型的範疇。目前主要有向量空間模型、機率模型和統計建模語言模型三種經典信息檢索模型。
向量空間模型:
這裡主要介紹向量空間模型。早在20世紀50年代,把文本表示成帶權信息的詞向量的思想就已經被提出來了,這種思想正是向量空間模型的精髓所在。之後由Gerard Salton等人提出的向量空間模型是近幾十年來信息檢索領域套用最為廣泛的檢索模型之一。
VSM的基本思路:將查詢也看做文檔,而每篇文檔都表示成同一空間下的向量,通過向量之間的相似度來度量查詢和文檔之間的相關性。其中向量的每一維對應一個詞項,向量的每個分量元素代表詞項在文檔中的重要性,這種重要性稱為權重,通常可以採用FTFIDF機制來計算。其中TF(Term Frequency)指詞項頻率,是詞項在文檔集中出現的數目。TF給出了詞項在文檔中代表性。而DF(Document Frequency)是文檔集中出現該詞項的所有文檔數目,稱為文檔頻率。DF通常要轉換成逆文檔頻率IDF來計算。詞項t的IDF值通常採用如下的公式計算:
IDF(t) = log(N/DF(t)),其中,N是文檔集中所有文檔的數目。IDF代表的是詞項在全局文檔中的區分性。在VSM中,詞項權重往往由上述TF和IDF組合而成,通常採用乘法。