相關度加權

相關度加權

信息檢索領域,相關度理論一直是研究的焦點和熱點。Mizzaro綜合了前人對相關度的不同定義和分類,提出了四維度的相關度研究架構:Information Need,Components,Time,Information Resource,它認為任何一種相關度是上述四維空間的某個點。相關度加權是指事物之間存在的相互關係加以權重。例如在信息檢索中對某個詞在整個信息中的影響加以權重。

基本介紹

  • 中文名:相關度加權
  • 外文名:Relevancy Weighted
  • 學科:計算機科學
  • 定義:事物之間存在的相互關係加以權重
  • 目的:改善相關度
  • 套用:信息檢索、數據挖掘、人工智慧等
簡介,相關度,套用,

簡介

相關度(Relevancy)是指兩個事物間存在相互聯繫的百分比。在信息檢索領域,相關度理論一直是研究的焦點和熱點。Mizzaro綜合了前人對相關度的不同定義和分類,提出了四維度的相關度研究架構:Information Need,Components,Time,Information Resource,它認為任何一種相關度是上述四維空間的某個點。相關度加權是指事物之間存在的相互關係加以權重。例如在信息檢索中對某個詞在整個信息中的影響加以權重。相關度加權有著廣泛的套用,如信息檢索,數據挖掘人工智慧等領域。

相關度

相關度(Relevancy)是指兩個事物間存在相互聯繫的百分比。關於相關度的正式研究開始於二十世紀,研究後來被稱為文獻計量學。在20世紀30年代和40年代,斯科特布拉德福德(SC Bradford)使用“相關度”一詞來表征與一個主題有關的文章。在20世紀50年代,第一批信息檢索系統出現,研究人員指出不相關的文章在檢索出現是一個重要的問題。1958年,卑詩省維克里奇(B. C. Vickery)在國際科學信息會議的一次演講中提出了相關度的清楚概念。
在信息檢索領域,相關度理論一直是研究的焦點和熱點。Mizzaro綜合了前人對相關度的不同定義和分類,提出了四維度的相關度研究架構:InformationNeed,Components,Time,Information Resource,它認為任何一種相關度是上述四維空間的某個點。而Steve Draper對四維度的相關度框架提出了質疑和討論,認為信息需求是沒有先後的,而且IR系統需要的是確定的單一的相關度判定結果,多維度的相關度表示和判定反而不利於IR服務。Borlund對相關度概念作出總結,並認為情境相關是未來相關度發展的主流趨勢。HjorlandNl批評了系統和用戶相關的觀點,強調和維護了Saracevic提出的主題知識相關(the Subject Knowledge View),並從社會學的觀點出發理解和闡釋相關度。

套用

基於查詢詞出現的相關度改進
對檢索效果的改進,一直是信息檢索領域重要的研究內容。所謂的查詢詞出現信息,指的是查詢中的某個詞是否在文檔中出現。在一個查詢中,一個查詢詞是否在文檔中出現,會影響該文檔的相關性,這個性質已經在已有的檢索模型中得到套用。從另外一個角度,通過查詢詞出現信息計算相應的權值,將該權值套用到已有的檢索模型基礎上。對於權值的計算,這裡採用了兩種改進方法,即係數加權方法和線性加權方法。
一個查詢可能有多個查詢詞,其中的每個查詢詞是否在文檔中出現,會影響相關度。在BM25 模型或者其他模型的打分過程中,都已經考慮了文檔中的詞頻:在一篇文檔中,查詢詞的詞頻越高,對相關度的貢獻越高;如果查詢詞沒有出現(詞頻為 0),會適當降低相關度。然而本文對於查詢詞出現的貢獻,則是從另一個角度考慮。讓我們考慮如下的情形:對於一個查詢 t1 t2 t3,通過 BM25 模型的打分,兩篇文檔的分數一樣高(或者很接近)。但是第一篇文檔只出現了 t1 和 t2,而第二篇文檔 t1 t2 t3 都出現,那么我們直觀上感覺第二篇文檔更好一些。基於這樣的啟發式方法,我們定義了一個詞出現的影響權重 weightocc,對於這個權重,嘗試了兩種加權方法,對相關度分數進行改進。
係數加權
在這個方法中,我們將詞出現的權重作為係數,乘到原始分數上面,得到改進後的分數,如下所述
線性加權
線上性加權方法中,詞出現的權重和原始分數線性加權,得到最終的改進分數。是可調節的參數。
這裡通過引入詞出現權重,對檢索相關度的改進。通過調整參數,在GOV2數據2005年的評測集上取得了比較好的檢索效果。如圖
相關度加權

相關詞條

熱門詞條

聯絡我們