機率論模型

機率論模型

機率論模型是基於機率排序原理,在機率框架中處理信息檢索問題。模型中假設特徵項之間是相互獨立的,該模型是基於機率原則:給定一個用戶查詢q和文檔集中的一個文檔dj,機率模型試圖估計用戶找到其感興趣的文檔dj機率,機率模型假設這個相關機率只是依賴於查詢和文檔表示。進而假設模型在文檔集中存在一個子集,它是查詢q的結果集。理想結果集記為R,它使得總體的相關機率最大。集合R中的文檔被認為是與查詢相關的,不在集合R中的文檔則被認為是不相關的。

基本介紹

  • 中文名:機率論模型
  • 外文名:Probabilistic Model
基礎,準則,

基礎

機率論模型的基礎是機率,預估計信息資源與用戶需求的相關性,根據相關性大小進行排序,排到最前面的文檔將會是最有可能滿足用戶需求的文檔。Van Rijsbergen和Robertson等人提出的機率檢索模型的基本思想是根據先前檢索過程中得到的相關性先驗信息來計算文檔集合中每篇文檔成為相關文檔的機率,並根據統計理論(如貝葉斯決策等)來確定哪些文檔可作為輸出文檔集。相關工作中,將布爾檢索和機率檢索模型有機地結合起來,但它在沒有獲得樣本文檔之前,無法估計詞條相關性且該方法複雜度較大。

準則

利用機率論模型的典型系統有Kwok與Robertson等,它們在利用樣本計算詞權重的過程中考慮了詞在文檔中出現的頻率,其中Kwok系統還考慮了詞在整個樣本集合中出現的頻率。機率論模型的效果要明顯優於布爾模型,但比向量空間模型略差。
機率論模型的一個特例是貝葉斯網路,由於該模型適合於超文本系統,因此在超文本信息成為當前信息獲取主流信息的情況下,該模型的套用越來越廣泛。

相關詞條

熱門詞條

聯絡我們