基本介紹
- 中文名:情報檢索算法
檢索信息,研究進展,
檢索信息
情報檢索算法的構造與選擇直接依賴於情報在計算機中的存儲與提問的表達方法。由於現代的計算機還不能直接有效地處理用自然語言表達的提問,以,常用布爾邏輯式(以及擴充型布爾邏輯式)、模糊語言 (包括向量語言) 、機率方法和受限的自然語言等來表示提問,這樣就必然產生了各種相應的提問加工方法,以及有關的估算情報與提問匹配程度的相應名稱的算法。因為情報查找匹配方法的選擇在很大程度上還取決於文檔的結構,所以,下述查找算法為人們所常用:
對無序的順排文檔常用順序查找算法。特別在集中處理一批提問時,可用“表展開”加工提問與“一次掃描”算法實現快速查找。對已聚類的順排檔,可用“聚類查找”或“機率查找”等算法。對有序的順排檔,則常用“二分查找”、“估算入口法查找”或“B樹查找”等算法。對用計畫地址方法(如雜湊法)存儲的情報則採用“計算法查找”。
為了實現快速回響與追溯檢索,現代情報資料庫中往往不僅存儲代表原始情報的順排檔,而且還存儲情報的輔關鍵字(如作者、主題次、分類號等)索引,即所謂倒排檔。對倒排檔,通常採用“逆波蘭展開法”處理提問式,並使用對倒排檔進行集合運算的所謂“倒排檢索”算法。在倒排檢索縮小了檢索範圍後,有些情報檢索系統還允許對已粗檢出的內容再進行順序檢索,人們又常稱之為二次檢索算法。