站內檢索主要針對基於Internet的局部站點和基於Intranet的區域網路內部的網頁資源進行快速有效的全文檢索。
基本介紹
- 中文名:站內檢索
套用範圍
這種網頁數量的站點信息一方面要求檢索系統更新周期短(每周更新一次),一方面還需要做到檢索速度快。如果利用Google這樣的搜尋引擎進行檢索站內信息的話,難以保證數據的更新要求;而如果自己開發基於資料庫技術的檢索系統的話,又難以保證檢索的高效率。正是在這種需求背景之下,本產品應運而生。
據統計,已開發國家一般的大中型網站均配有站內全文檢索系統,這樣可以保證客戶能夠在最短的時間內獲取所需要的信息。反觀國內,幾乎90%的大中型網站都沒有相應的站內全文檢索系統。所以,站內全文檢索,是大勢所趨,越早上站內全文檢索系統,網站越有吸引力。
系統的功能
1)信息蒐集能力超強
本系統突破了傳統搜尋引擎的禁區,能夠處理所有的動態頁面信息。傳統的搜尋引擎為了防止掉入CGI陷阱中,一般都不敢處理動態頁面。所謂的CGI陷阱指的是由於網路伺服器動態計算產生的頁面具有很大的不確定性,造成頁面蒐集程式循環訪問同一個URL。通過我們的分析發現,目前絕大部分網站都採用各種腳本製作動態頁面,因此如果不能對動態頁面進行處理,那么這種檢索系統是不完備的。本系統採用了獨有的技術完全克服了這方面的困難,從而具有更強的信息蒐集能力。
2)檢索速度快
一般的非專業的檢索系統都是採用資料庫系統完成的,這種系統的回響時間一般都在10秒左右(對於大數據量)。而本系統的回響時間一般都在0.02秒左右,網路傳輸時間一般在1秒左右,因此總體回響時間在1-2秒內。這種速度顯然是非常快的。
3)支持複合檢索
通常情況下用戶的檢索是複合條件的,例如檢索"新聞中心+主任",用戶想了解新聞中心的主任的一些信息。本系統支持"+、-"操作符,完全可以滿足用戶的檢索需求。在這一點上,我們的系統同通用的搜尋引擎系統是一致的。
4)支持分類檢索
目前上規模的網站一般都會將網站的信息劃分為若干個頻道,例如:中國教育信息網主要分為教育產品、招考中心、教育圖書、科普長廊、教育動態、科研天地、學生社區、家長時段、職業培訓、海外視窗、信息化成就展等幾個主要的頻道。這樣就給站內全文檢索系統提出了新的要求,應該不僅能夠在整個網站內部進行檢索,而且還能夠將檢索的範圍限制在某個頻道內部。基於這種需求,Xunao(V2.0)提供了分頻道檢索的功能。
5)支持按照更新時間範圍檢索
對於報社類網站、新聞類站點,時間顯得尤為重要,針對這種需求,Xunao Search (V2.0)提供了按照時間範圍進行檢索的功能,用戶可以選擇搜尋的起止時間進行全文檢索,這樣更加體現了新聞的時效性。
6)支持多種排序方式
傳統的搜尋引擎一般都是按照相關度進行排序的,Xunao Search (V2.0)不僅在結果相關度排序上進行性能上的改進,而且提供了對檢索結果按照更新時間升序、按照更新時間降序等多種排序方式。這樣一來,用戶可以在最重要的檢索結果中輕鬆地挑選出自己感興趣的時間段的結果。
7)支持模糊檢索
由於數據量非常大,一般的搜尋引擎系統都沒有模糊檢索的功能,但是用戶往往有這方面的需求,如用戶打算了解一本書的作者的一些信息,但是他僅僅記得這個人叫張X京,這裡的"X"代表用戶不知道這中間的字是什麼了。如果對於傳統的搜尋引擎,肯定無能為力了,但是在我們這個系統裡面,只要存在這個信息,那么就可以檢索出來。檢索方式如下:用戶可以輸入"作者+張?京",系統就會自動檢索出滿足條件的紀錄。
系統還支持"*"操作符,該操作符代表0個或者多個字元。有什麼好處呢?一般的搜尋引擎僅僅檢索出那些只要在同一個頁面裡面出現的就算成結果,不論這兩個檢索詞在文中出現的相對位置有多么遠。例如用戶打算搜尋"IBM+筆記本",對於一般的搜尋引擎來說只要頁面裡面同時出現了"IBM"和"筆記本",那么它就會認為這是結果,很多情況下這樣的頁面並非用戶需要的;而對於本系統來說,用戶可以輸入"IBM*筆記本",那么檢索的結果一定是"IBM"這個詞在前面,"筆記本"這個詞在後面,並且兩個詞之間距離很近。顯然,這種檢索結果的準確率要高很多。
8)結果相關度高
本系統通過對網頁本身的分析結合權威頁面的分析,能夠保證檢索結果中越重要的頁面排放在最前面。例如:我們打算檢索清華大學"新聞中心",通過測試其他的搜尋引擎系統,發現檢索結果是一些頁面內含有"新聞中?quot;這個詞多的頁面排放在前面,而這些頁面都是無關緊要的一些小新聞,真正重要的清華大學新聞中心首頁卻沒有出現在檢索結果裡面。本系統完全解決了這個問題,保證最權威的頁面排放在最前面。
9)動態生成文摘
一般的搜尋引擎產品的文摘部分僅僅是抽取了頁面的前200-300個位元組,很多情況下這部分內容同檢索結果沒有任何關係,用戶根本無法從中獲取什麼有用的信息,從而不得不先訪問這些頁面才能知道真正的內容是什麼。
本系統可以根據檢索詞的位置,從該檢索詞附近動態抽取文本作為文摘,從而極大地提高了用戶的檢索效率。
10)支持網頁快照功能
系統會將網頁保存到本地硬碟中,這樣用戶在檢索的時候可以直接察看系統硬碟中保存的頁面,這樣做的好處是:
第一:如果該頁面已經不存在了,用戶依然可以查閱該頁面的信息;
第二:該頁面將動態標記關鍵字,便於用戶查找最感興趣的信息。
11)信息蒐集、索引建立時間短
一般來說,對於一個包含一萬個頁面的站點的信息蒐集和索引建立總體需要的時間約一個小時左右,不需要人工的干預。
12)方便有效的管理功能
系統管理人員可以從任何一台聯網的計算上,通過瀏覽器對系統進行全方位的管理工作。