倒排索引

概述

在關係資料庫系統里，索引是檢索數據最有效率的方式,。但對於搜尋引擎，它並不能滿足其特殊要求：

1）海量數據：搜尋引擎面對的是海量數據，像Google，百度這樣大型的商業搜尋引擎索引都是億級甚至百億級的網頁數量，面對如此海量數據 ,使得資料庫系統很難有效的管理。

2）數據操作簡單：搜尋引擎使用的數據操作簡單 ,一般而言 ,只需要增、刪、改、查幾個功能 ,而且數據都有特定的格式 ,可以針對這些套用設計出簡單高效的應用程式。而一般的資料庫系統則支持大而全的功能 ,同時損失了速度和空間。最後 ,搜尋引擎面臨大量的用戶檢索需求 ,這要求搜尋引擎在檢索程式的設計上要分秒必爭 ,儘可能的將大運算量的工作在索引建立時完成 ,使檢索運算儘量的少。一般的資料庫系統很難承受如此大量的用戶請求 ,而且在檢索回響時間和檢索並發度上都不及我們專門設計的索引系統。

相關概念及定義

倒排列表概念

倒排列表用來記錄有哪些文檔包含了某個單詞。一般在文檔集合里會有很多文檔包含某個單詞，每個文檔會記錄文檔編號（DocID），單詞在這個文檔中出現的次數（TF）及單詞在文檔中哪些位置出現過等信息，這樣與一個文檔相關的信息被稱做倒排索引項（Posting），包含這個單詞的一系列倒排索引項形成了列表結構，這就是某個單詞對應的倒排列表。右圖是倒排列表的示意圖，在文檔集合中出現過的所有單詞及其對應的倒排列表組成了倒排索引。

在實際的搜尋引擎系統中，並不存儲倒排索引項中的實際文檔編號，而是代之以文檔編號差值（D-Gap）。文檔編號差值是倒排列表中相鄰的兩個倒排索引項文檔編號的差值，一般在索引構建過程中，可以保證倒排列表中後面出現的文檔編號大於之前出現的文檔編號，所以文檔編號差值總是大於0的整數。如圖2所示的例子中，原始的 3個文檔編號分別是187、196和199，通過編號差值計算，在實際存儲的時候就轉化成了：187、9、3。

之所以要對文檔編號進行差值計算，主要原因是為了更好地對數據進行壓縮，原始文檔編號一般都是大數值，通過差值計算，就有效地將大數值轉換為了小數值，而這有助於增加數據的壓縮率。

倒排索引概念

倒排索引（英語：Inverted index），也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來存儲在全文搜尋下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。通過倒排索引，可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成：“單詞詞典”和“倒排檔案”。
倒排索引有兩種不同的反向索引形式：
一條記錄的水平反向索引（或者反向檔案索引）包含每個引用單詞的文檔的列表。
一個單詞的水平反向索引（或者完全反向索引）又包含每個單詞在一個文檔中的位置。
後者的形式提供了更多的兼容性（比如短語搜尋），但是需要更多的時間和空間來創建。
現代搜尋引擎的索引都是基於倒排索引。相比“簽名檔案”、“後綴樹”等索引結構，“倒排索引”是實現單詞到文檔映射關係的最佳實現方式和最有效的索引結構。

倒排索引

基本介紹

概述

相關概念及定義

倒排列表概念

倒排索引概念

構建方法

簡單法

合併法

更新策略

套用

相關詞條

熱門詞條