布爾模型

布爾(Boolean)模型是基於集合論和布爾代數的一種簡單檢索模型。它的特點是查找那些於某個查詢詞返回為“真”的文檔。

基本介紹

  • 中文名:布爾模型
  • 外文名:Boolean
  • 性質:簡單檢索模型
  • 特點:查找查詢詞返回為“真”的文檔
概述,缺陷,

概述

布爾(Boolean)模型是基於集合論和布爾代數的一種簡單檢索模型。它的特點是查找那些於某個查詢詞返回為“真”的文檔。在該模型中,一個查詢詞就是一個布爾表達式,包括關鍵字以及邏輯運算符。通過布爾表達式,可以表達用戶希望文檔所具有的特徵。由於集合的定義是非常直觀的,Boolean模型提供了一個信息檢索系統用戶容易掌握的框架。查詢串通常以語義精確的布爾表達式的方式輸入 。

缺陷

第一,它的檢索策略是基於二元判定標準(binary decision criterion)(例如,對於檢索來說一篇文檔只有相關和不相關兩中狀態),缺乏文檔分級(rank)的概念,限制了檢索功能。
第二,雖然布爾表達式具有精確的語義,但常常很難將用戶的信息需求轉換為布爾表達式,實際上大多數檢索用戶發現在把他們所需的查詢信息轉換為布爾時並不是那么容易。
布爾模型
除掉上述缺陷,Boolean模型仍然是文檔資料庫系統中的主要模型。
Boolean模型定義索引術語只有兩種狀態,出現或者不出現在某一篇文檔中,這樣就導致了索引術語的權重都表現為二元性(例如, )。查詢串q是一個傳統的布爾表達式,假設 是q的分離形式,假設 是 的任何一種分離形式,文檔與查詢串的相關都定義為:
如果 ,Boolean模型表示文檔 與查詢串相關(但可能不屬於查詢結果集),否則就表示與文檔 不相關。
Boolean模型的主要優點在於具有清楚和簡單的形式,而主要缺陷在於完全匹配會導致太多或者太少的結果文檔被返回。眾所周知,索引術語的權重從根本上提高了檢索系統的功能,從而導致了向量(Vector)模型的產生。

相關詞條

熱門詞條

聯絡我們