信息檢索模型

信息檢索模型是表示文檔、查詢及其相關度的模型。

基本介紹

  • 中文名:信息檢索模型
  • 性質:通信信息科學類術語
主要分類,特徵,

主要分類

主要有四種:布爾模型、向量空間模型、語言模型和機率模型。前三種使用同一框架,認為文檔和查詢是由一組單詞構成的,忽略詞的順序和在句子或文檔中的位置。
布爾模型是最常用的檢索模型之一,其優點為:一是查詢簡單,因此容易理解;二是通過使用複雜的布爾表達式,可以很方便地控制查詢結果。布爾模型被認為是功能最弱的方式,原則上講,所有被匹配的文檔都將被返回,很難對輸出進行排序,不考慮索引詞的權重,所有文檔都以相同的方式和查詢相匹配,不支持部分匹配,而完全匹配會導致太多或者太少的結果文檔被返回,剛性強。“與”意味著全部;“或”意味著任何一個,很難控制被檢索的文檔數量。例如上例中,查詢表達式為“飛碟”and“小說”時,只能檢索出D,,無法顯現D1、D2、Da的差異;查詢表達式為“飛碟”or“小說”時可以檢出D1、D2、D,但無法顯現它們的差異。
向量空間模型(Vector Space Model,VSM)是由美國康奈爾大學的Salton教授領導的研究小組在20世紀60年代末到70年代初提出並發展起來的一種信息檢索模型。在該模型中,查詢和文檔都被看成是由若干特徵詞組成的向量,所有的文檔集構成了一個向量空間,每一個文檔都被看成向量空間中的一個點,也就是由若干特徵詞描述的向量。文檔與查詢的相似性問題被描述成向量空間中的兩個向量之間的相似度。該模型將所有的文檔用向量來表示,也就是將搜尋到的文檔材料進行特徵項抽取,形成特徵向量,而當用戶查詢時,則針對特定的查詢向量,比較它與所有文檔的相似度,並按相似度大小將文檔排序後提交給用戶。向量空間模型算法中,相似度值的大小反映了文檔與用戶查詢要求的相關程度,值越高則代表文檔與用戶的查詢要求越相關。
信息檢索的機率模型是信息檢索的經典模型,這種檢索模型是基於一個檔案與提問式的相關度是高於還是低於非相關度的機率來進行文檔檢索的檢索方法。

特徵

文檔集合的所有辭彙是整個空間,每個文檔表示為該空間上的一個詞向量,每個詞對應一個權值,不同的模型對權值的計算方法不同。查詢亦表示為類似的一個向量。通過對文檔和查詢的表示,計算它們之間的相關度,可找到符合查詢的相關文檔。

相關詞條

熱門詞條

聯絡我們