偽相關反饋

偽相關反饋是一種自動局部分析方法。

偽相關反饋,也稱之為盲式相關反饋,提供的是一種自動局部分析方法,它可以自動化相關反饋的手動操作部分,因此用戶可不用參與額外的互動也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果,然後假定其中的前"k"排名文檔是相關的,最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下:
把初始查詢返回的結果當成相關結果(在大多數實驗中僅前k個,k位於10和50之間的數);
使用如TF-IDF權重的方法從這些文檔中選擇前20-30(象徵性的數字)個詞語;
執行查詢擴展,將這些詞語加入到查詢中,然後再去匹配查詢所返回的文檔,最終返回最相關的文檔。
一些實驗,如發表在(Buckley et al.1995)的Cornell SMART系統,在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。
這種自動化技術在大多數情況下都工作正常,有證據表明甚至好於全局分析。[1] 通過查詢擴展,一些在初始查詢中錯過的文檔能被重新獲得,從而提高了整體性能。很顯然,這種方法的效果非常依賴於所選擇的擴展詞語的質量,目前已經發現它在TREC即席任務中提高了性能[來源請求]。但是它又避免了自動處理過程的危險,例如,如果需要查詢的是銅礦,而且位於前面的一些文檔都是關於智利的銅礦,那么在查詢方向上會逐漸偏向於那些與智利有關的文檔。 然而,如果加入原始查詢的詞語與查詢主題並不相關,檢索質量有可能會下降,尤其是在Web搜尋中,Web文檔經常會覆蓋多個不同的主題。

相關詞條

熱門詞條

聯絡我們