《基於超幾何分布的無參機率信息檢索模型研究》是依託中國科學院大學,由何苯擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於超幾何分布的無參機率信息檢索模型研究
- 項目類別:青年科學基金項目
- 項目負責人:何苯
- 依託單位:中國科學院大學
項目摘要,結題摘要,
項目摘要
信息檢索模型是在大規模、跨域、多態的信息搜尋套用中的基礎核心技術。現有的信息檢索模型嚴重依賴於參數的調節,存在魯棒性低的問題,具體表現為檢索精度的不穩定性。本課題從文檔先驗機率均勻分布這一機率檢索模型基本假設的有效性出發,提出基於超幾何分布的無參檢索模型,擬解決現有模型中存在的低魯棒性和依賴調參的問題。主要研究內容為首先量化定義檢索模型魯棒性,其次檢驗文檔先驗機率均勻分布假設的有效性,並提出修正該假設的新方法,進而推導無參超幾何模型的可計算和實現的公式,最後結合相關反饋提升檢索精度。本項目提出的新模型將在TREC、NTCIR等25TB以上大型標準數據集上通過多種搜尋任務進行驗證評價,希望無參新模型在統計意義上達到或超過現有帶參模型調優後的檢索精度。本項目能夠進一步推動無參信息檢索模型的理論研究,其成果可望提升面向海量、異構數據的檢索套用的精度和適應性。
結題摘要
現有信息檢索模型嚴重依賴於參數的調節,存在魯棒性低的問題,具體表現為檢索精度的不穩定性。尤其是近年來隨著大數據時代的興起,如果保證在大規模數據集上檢索效果的穩定性,成為檢索模型研究的新課題。為解決該問題,本課題首先從詞頻機率分布入手,研究了檢索模型的魯棒性。然後本課題推導得到無參超幾何模型的可計算和實現的公式,在TREC標準數據集上的實驗表明,無參超幾何模型可以得到與BM25、PL2等經典模型近似的檢索精度,並且在與查詢擴展技術結合後,可以得到超過BM25模型的檢索精度,這證實了新模型的有效性。接下來,本課題嘗試採用了Weibull, Exponential, Rayleigh, Gamma等多種詞項分布形式進行機率檢索建模,通過在DOTGOV2、ClueWeb09 B等大規模數據集上的實驗表明,新模型在大數據上對詞項頻率分布的刻畫能力和檢索適用性均超過BM25、PL2等經典檢索模型,因此可以在ClueWeb09 B超大規模數據集上得到顯著超過以上經典模型的檢索精度。最後,課題組還嘗試了採用多種機率分布形式進行Bi-gram建模,並且通過在多個標準數據集上的實驗證實了新模型的有效性。綜上所述,本項目提出的新模型在DOTGOV2、ClueWeb09等大型標準數據集上通過多種搜尋任務進行驗證評價,結果表明無參新模型在統計意義上能夠達到或超過現有帶參模型調優後的檢索精度。本項目的研究結果進一步推動了無參信息檢索模型的理論研究,其成果可望提升面向海量、異構數據的檢索套用的精度和適應性。