相關反饋

相關反饋,起源於信息檢索系統領域,其思路是將給定查詢最先返回的結果,和這些結果是否與新查詢是否相關的信息利用起來。區別三種類型的反饋將很有意義:顯式反饋、隱式反饋和盲式或偽反饋。

基本介紹

顯式反饋,隱式反饋,盲式反饋,使用相關性信息,

顯式反饋

顯式反饋是從相關性評估者那裡獲取的,這裡的相關性表示檢索文檔與查詢的相關程度。只有當評估者(或系統的其他用戶)清楚所提供的反饋是被解釋為相關性判斷依據時,這種類型的反饋才能稱為是顯式的。
用戶可能將相關性用二元分級的相關機制來顯式表示。二元相關反饋表示文檔相對於給定的查詢要么相關,要么不相關。而分級的相關反饋則使用數字、字母或其它描述(如“不相關”,“一點相關”,“相關”,或“很相關”)來表示文檔與查詢的相關程度。當評估者將結果中的文檔按照相關性排序(通常時降序)時,分級的相關反饋也需要使用這種由評估者創建的文檔序號形式,Google在搜尋網站中實現的SearchWiki就是這樣一個例子,
相關反饋信息需要結合原始查詢才能提高檢索性能,如著名的Rocchio算法
性能度量在2005年左右變得流行起來,其用來衡量排名算法的有用性,其中基於顯式相關反饋的性能度量是NDCG,其它的度量包括k上查準率與平均查準率。

隱式反饋

隱式反饋是從用戶行為中推斷出來的,這些行為比如觀察用戶選擇查看或不查看哪些文檔,查看文檔所持續的時間,或者瀏覽頁面、捲動滾動條操作。
隱式反饋與顯式反饋最主要的區別包括:
  1. 用戶並不需要為了考慮IR系統需要而去評估相關性,而只關注自己的需要能否滿足即可;
  2. 並不需要告知用戶他們的行為會被用於相關反饋。
其中的一個例子是Surf Canyon瀏覽器擴展,基於用戶互動(點擊圖示)和搜尋結果連結頁面上的時間花費,來提前從結果集中的後續頁面中搜尋結果。

盲式反饋

偽相關反饋,也稱之為盲式相關反饋,提供的是一種自動局部分析方法,它可以自動化相關反饋的手動操作部分,因此用戶可不用參與額外的互動也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果,然後假定其中的前"k"排名文檔是相關的,最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下:
  1. 把初始查詢返回的結果當成相關結果(在大多數實驗中僅前k個,k位於10和50之間的數);
  2. 使用如TF-IDF權重的方法從這些文檔中選擇前20-30(象徵性的數字)個詞語;
  3. 執行查詢擴展,將這些詞語加入到查詢中,然後再去匹配查詢所返回的文檔,最終返回最相關的文檔。
一些實驗,如發表在(Buckley et al.1995)的Cornell SMART系統,在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。
這種自動化技術在大多數情況下都工作正常,有證據表明甚至好於全局分析。通過查詢擴展,一些在初始查詢中錯過的文檔能被重新獲得,從而提高了整體性能。很顯然,這種方法的效果非常依賴於所選擇的擴展詞語的質量,目前已經發現它在TREC即席任務中提高了性能。但是它又避免了自動處理過程的危險,例如,如果需要查詢的是銅礦,而且位於前面的一些文檔都是關於智利的銅礦,那么在查詢方向上會逐漸偏向於那些與智利有關的文檔。然而,如果加入原始查詢的詞語與查詢主題並不相關,檢索質量有可能會下降,尤其是在Web搜尋中,Web文檔經常會覆蓋多個不同的主題。

使用相關性信息

利用相關性信息,可使用相關文檔的內容來調整原始查詢中詞語的權重,也可使用這些內容將詞語加入到查詢中,相關性反饋經常使用Rocchio算法實現。

相關詞條

熱門詞條

聯絡我們