搜尋引擎基本工作原理

工作原理

搜尋引擎為了以最快的速度得到搜尋結果，它搜尋的內容通常是預先整理好的網頁索引資料庫。普通搜尋，不能真正理解網頁上的內容，它只能機械地匹配網頁上的文字。真正意義上的搜尋引擎，通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個文字（即關鍵字）進行索引，建立索引資料庫的全文搜尋引擎。當用戶查找某個關鍵字的時候，所有在頁面內容中包含了該關鍵字的網頁都將作為搜尋結果被搜出來。在經過複雜的算法進行排序後，這些結果將按照與搜尋關鍵字的相關度高低，依次排列。典型的搜尋引擎三大模組組成：

（一）信息採集模組

信息採集器是一個可以瀏覽網頁的程式，被形容為“網路爬蟲”。它首先打開一個網頁，然後把該網頁的連結作為瀏覽的起始地址，把被連結的網頁獲取過來，抽取網頁中出現的連結，並通過一定算法決定下一步要訪問哪些連結。同時，信息採集器將已經訪問過的URL存儲到自己的網頁列表並打上已搜尋的標記。自動標引程式檢查該網頁並為他創建一條索引記錄，然後將該記錄加入到整個查詢表中。信息收集器再以該網頁到超連結為起點繼續重複這一訪問過程直至結束。一般搜尋引擎的採集器在搜尋過程中只取鏈長比（超連結數目與文檔長度的比值）小於某一閥值的頁面，數據採集於內容頁面，不涉及目錄頁面。在採集文檔的同時記錄各文檔的地址信息、修改時間、文檔長度等狀態信息，用於站點資源的監視和資料庫的更新。在採集過程中還可以構造適當的啟發策略，指導採集器的搜尋路徑和採集範圍，減少文檔採集的盲目性。

（二）查詢表模組

查詢表模組是一個全文索引資料庫，他通過分析網頁，排除HTML等語言的標記符號，將出現的所有字或詞抽取出來，並記錄每個字詞出現的網址及相應位置（比如是出現在網頁標題中，還是出現在簡介或正文中），最後將這些數據存入查詢表，成為直接提供給用戶搜尋的資料庫。

（三）檢索模組

檢索模組是實現檢索功能的程式，其作用是將用戶輸入的檢索表達式拆分成具有檢索意義的字或詞，再訪問查詢表，通過一定的匹配算法獲得相應的檢索結果。返回的結果一般根據詞頻和網頁連結中反映的信息建立統計模型，按相關度由高到低的順序輸出。

工作機制

搜尋引擎的工作機制就是採用高效的蜘蛛程式，從指定URL開始順著網頁上的超連結，採用深度優先算法或廣度優先算法對整個Internet進行遍歷，將網頁信息抓取到本地資料庫。然後使用索引器對資料庫中的重要信息單元，如標題，關鍵字及摘要等或者全文進行索引，以供查詢導航。最後，檢索器將用戶通過瀏覽器提交的查詢請求與索引資料庫中的信息以某種檢索技術進行匹配，再將檢索結果按某種排序方法返回給用戶。

工作流程

（1）在互聯中發現、蒐集網頁信息

搜尋引擎首先負責數據採集，即按照一定的方式和要求對網路上的WWW站點進行蒐集，並把所獲得的信息保存下來以備建立索引庫和用戶檢索。但是收集網頁只是搜尋引擎的一部分工作，他們的其他伺服器要做的還有進行計算/分配/儲存用戶習慣等等。

搜尋引擎基本工作原理

基本介紹

工作原理

工作機制

工作流程

搜尋引擎

性能指標

相關詞條

熱門詞條