簡介
元搜尋引擎的另外一個定義:元搜尋引擎(Meta-search Engine),是一種調用其它獨立搜尋引擎的引擎,亦稱“搜尋引擎之母(The mother of searching engines)”。在這裡,“元”(Meta)為“總的”、“超越”之意,元搜尋引擎就是對多個獨立搜尋引擎的整合、調用、控制和最佳化利用。相對元搜尋引擎,可被利用的獨立搜尋引擎稱為“源搜尋引擎”(source searching Engine),或“搜尋資源”(searching resources),整合、調用、控制和最佳化利用源搜尋引擎的技術,稱為“元搜尋技術”(Meta-searching technique),元搜尋技術是元搜尋引擎的核心。
起源
世界上最早的元搜尋是metacrawler,它是
infospaceinc.的一部分,初始網上運行時間為 1995年,是由
華盛頓大學的學生erik和教授oren etzin共同開發研製的。它是全球資訊網搜尋引擎metacrawler的姐妹引擎,是一個並行式的
元搜尋引擎。具有同時調用Google、Yahoo、Ask Jeeves About、LookSmart、
TeomaOverture、FindWhat等搜尋引擎的功能,然後按相關度給出精確,詳細的結果。它可以對網頁、圖像、音頻、多媒體、新聞、購物等進行選擇檢索,還提供了如下
高級檢索功能:
提高你檢索的品質(Qualify Your Search):你可以創建一個特定的檢索,查詢一個精確的欄位,或者排除包含特定詞的頁面。
使用
布爾邏輯符檢索(Use Boolean Terms):在關鍵字中使用and,or和not
布爾邏輯檢索符,使得檢索結果更精確。
最後更新頁面(Last Page Update):使用After來查詢特定日期後更新的結果,使用Before來查詢在特定日期前更新的結果。同時選擇After和Before,將檢索出兩個日期之間的結果。
域名過濾(Domain Filter):可以排除以.com、.gov、.edu結尾的域名,你也可以包括一個特殊的包含.com的域名。
成人過濾(Adult Filter):可以包含或者過濾掉Web檢索結果中的成人內容。
語言選擇(Language Selection):可以選擇返回結果所用的語言。
結果展示(Results Display):可以選擇檢索結果排序的方式,按與檢索詞的
相關性排序或者按搜尋引擎展示結果的順序排序。
組成
一個真正的
元搜尋引擎由三部分組成,即:檢索請求提交機制、檢索接口代理機制、檢索結果顯示機制。"請求提交"負責實現用戶"個性化"的檢索設定要求,包括調用哪些搜尋引擎、檢索時間限制、結果數量限制等。"接口代理"負責將用戶的檢索請求"翻譯"成滿足不同搜尋引擎"本地化"要求的格式。"結果顯示"負責所有源搜尋引擎檢索結果的去重、合併、輸出處理等元搜尋引擎的出現,對於那些需要連續地使用不同的搜尋引擎重複相同的檢索的人來說,是一個福音。使用元搜尋引擎同時對幾個搜尋引擎進行檢索,獲得分級編排的檢索結果。
原理
我們可將元搜尋引擎看成具有雙層客戶機/伺服器結構的系統。用戶向元搜尋引擎發出檢索請求,元搜尋引擎再根據該請求向多個搜尋引擎發出實際檢索請求,搜尋引擎執行元搜尋引擎檢索請求後將檢索結果以應答形式傳送給元搜尋引擎,元搜尋引擎將從多個搜尋引擎獲得的檢索結果經過整理再以應答形式傳送給實際用戶。當然,某些元搜尋引擎具有略微不同的機制。
相關術語
簡單搜尋(Simple Search)指輸入一個單詞(關鍵字),提交搜尋引擎查詢,這是最基本的搜尋方式。
詞組搜尋(Phrase Search)指輸入兩個單詞以上的詞組(短語),提交搜尋引擎查詢,也叫短語搜尋。現有的搜尋引擎一般都約定把詞組或短語放在引號“”內表示。
語句搜尋(Sentence Search)指輸入一個多詞的任意語句,提交搜尋引擎查詢,這種方式也叫任意查詢。不同搜尋引擎對語句中詞與詞之間的關係的處理方式不同。
目錄搜尋(Catalog Search)指按搜尋引擎提供的分類目錄逐級查詢,用戶一般不需要輸入查詢詞,而是按照查詢系統所給的幾種分類項目,選擇類別進行搜尋,也叫分類搜尋(Classified SearCh)。
高級搜尋(Advance Search)指用
布爾邏輯組配方式查詢,也叫定製搜尋。常用的邏輯運算為AND(和)、 OR(或)和NOT(非)。
上述前3種搜尋方式可以合稱為詞語搜尋(Word Search),與高級搜尋和目錄搜尋一起構成3類常見搜尋方式。
在所有搜尋方式中,還可使用
通配符,就像DOS檔案系統用“*”作為通配符一樣,通配符用於指代一個串字元,不過,每個搜尋引擎所用的通配符不完全相同,大多用“*”或“?”,少數用“$”。
不少搜尋引擎還支持加(+)、減(-)詞操作。 元搜尋引擎(Meta-search engine) 其英文原意是搜尋引擎之後或之上的搜尋引擎,即可以同時查詢多個搜尋引擎的WWW站點。雖然
元搜尋引擎依賴其他獨立搜尋引擎而存在,但它們集成了不同性能和不同獨立的搜尋引擎並發展了一些新的查詢功能,查一個元搜尋引擎就相當於查多個獨立搜尋引擎,可以收到事半功倍的效果,故值得選用。
引擎網站
元搜尋引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜尋,並將結果返回給用戶。著名的國外元搜尋引擎有InfoSpace、Dogpile、
Vivisimo等(元搜尋引擎列表),中文元搜尋引擎中具代表性的有
比比貓搜尋引擎、搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源引擎排列搜尋結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
國外對元搜尋的開發套用很早,目前在美國使用元搜尋引擎和使用Google一樣普遍,當然Google仍然占據美國絕對市場,但元搜尋引擎也一樣生機勃勃,財源滾滾。相比國內,起步很晚,中國首家
元搜尋引擎是
比比貓(bbmao),於2005年成立,在2006年獲得Red Herring 亞洲100強獎,從而拉開國內對元搜尋的真正關注和探索。比較優秀的元搜尋引擎有搜魅網(someta),整合了百度、谷歌、
雅虎等多家主流搜尋引擎的結果,並且獨創網站查詢。
整體來講,國外元搜尋引擎已自成體系,而國內真正長期堅持致力於開發獨特用戶體驗的元搜尋網站並不多。
主要元搜尋引擎列表
國內: ·搜魅網(someta)
集合了百度、google、
搜狗、雅虎多家主流搜尋引擎的結果,提供網頁、資訊、網址導航等
聚合查詢。另外,搜魅網突破了
元搜尋引擎沒有自己的蜘蛛的瓶頸,提供了網站查詢的功能。
獨創國際領先的聚類和去重技術。搜尋結果匯集各大搜尋引擎結果,搜尋結果智慧型分類整理,去掉重複搜尋結果,並擁有直接搜尋文檔和強大
網路收藏夾等多元功能。對於記者、教授、高管等知性、高端且惜時如金的人群比較適用,支持中英文搜尋。
·全博元搜尋(QOOPOO)
·Xooda元搜尋引擎
支持本地搜尋,一次輸入,返回多個搜尋引擎結果,並對結果進行重新的最佳化排序。
集主流搜尋引擎為一體,分類詳細,強大的搜尋功能。讓搜尋變得更方便!
國外: Vivisimo:是美國Vivisimo公司最新開發的一個具有對搜尋結果自動進行分類功能的搜尋引擎!它能非常快速地將不同類型的網站進行分類整理並將結果呈現在你眼前! 它在搜尋結果頁面左側增加了一個搜尋結果目錄欄。不足之處在於搜尋結果精準度不是很高。
ProFusionProFusion:是並行式
元搜尋引擎,擁有智慧型化的搜尋技術、對查詢的實用提示和非常寶貴的個人化搜尋服務,它是很優秀的元搜尋引擎,可同時調用9個獨立全球資訊網搜尋引擎—AltaVista、Excite、HotBot、InfoSeek、Lycos、Magellan、
OpenText、Webcrawler和Yahoo。
MetaCrawlerMetaCrawler:是獨立全球資訊網搜尋引擎WebCrawler的姐妹引擎,也是一個並行式
元搜尋引擎,它條理清晰,組織結構完美,可以同時調用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo 6個獨立引擎,是簡單搜尋或中度複雜搜尋的最佳網點。
DogpileDogPile:是性能較好的並行式元搜尋引擎之一,它可以同時調用Web搜尋引擎、Usenet搜尋引擎和FTP搜尋引擎等25個搜尋引擎,其中,Web搜尋引擎14個。
DigisearchDigisearch:是能同時調用獨立搜尋引擎較多的並行式元搜尋引擎,它可以同時調用AltaVista、 Excite、 Infoseek、 Lycos、 WebCrawler、 Yahoo、
OpenText和 Magellen等 18個獨立全球資訊網搜尋引擎,DejaNews等3個Usenet搜尋引擎和Fourll等3個個人信息和商界信息搜尋引擎。
Highway61Highway61:是並行式
元搜尋引擎,可以同時調用AltaVista、Excite、 Infoseek、 Lycos、WebCrawler和Yahoo等6個獨立引擎,並將它們傳回的結果進行排序,顯示給用戶。
MammaMamma:是並行式元搜尋引擎,它自稱是所有搜尋引擎之母(Mother of all Search Engines),它可以同時調用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo等獨立引擎,並且可以查
新聞組、商業黃負和發布新聞。
運行流程
用戶通過統一的查詢界面輸入查詢請求,
元搜尋引擎對查詢進行一定的預處理。
元搜尋引擎根據成員搜尋引擎調度機制,選擇若干成員搜尋引擎。
元搜尋引擎根據選擇的成員搜尋引擎的查詢格式,對原始查詢請就進行本地化處理,轉換為成員搜尋引擎要求的查詢格式串。
向各個成員搜尋引擎傳送經過格式化的查詢請求,等待返回結果。
收集各個獨立搜尋引擎的返回結果。
對返回結果進行綜合處理,例如,消除重複連結,
死連結等,形成最終結果。
以一定的格式將最終結果返回給用戶。
特點
沒有獨立的網頁資料庫。
能夠根據用戶的需求綜合特定的搜尋引擎的搜尋結果。
能夠索引特定類型的搜尋,例如圖片、文檔、網頁、視頻等等。
發展趨勢
元搜尋引擎是為彌補傳統搜尋引擎的不足而出現的一種輔助檢索工具,有著傳統搜尋引擎所不具備的許多優勢。但是,元搜尋引擎依賴於資料庫選擇技術、文本選擇技術、查詢分派技術和結果綜合技術等。用戶界面的改進、調用策略的完善、返回信息的整合以及最終檢索結果的排序,仍然是未來元搜尋引擎研究的重點。
元搜尋引擎的技術研發的研究需要用到了信息檢索、人工智慧、資料庫、數據挖掘、
自然語言理解等領域的理論和技術,具有綜合性和挑戰性。
一個理想的元搜尋引擎應該具備以下功能要求:
涵蓋較多的搜尋資源,可隨意選擇和調用獨立搜尋引擎,還可根據一定調度策略進行自動調度。
具備儘可能多的可選擇功能,如資源類型(網站、網頁、新聞、軟體、FTP、MP3、Flash、圖像、影視等)選擇、等待時間控制、返回結果數量控制、結果時段選擇、過濾功能選擇、結果顯示方式選擇等。
強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜尋引擎間檢索語法規則、字元的轉換功能(如對不支持“NEAR”算符的搜尋引擎,可自動實現由“NEAR”向“AND”算符的轉換等)。
詳盡全面的檢索結果信息描述(如網頁名稱、URL、文摘、源搜尋引擎、結果與用戶檢索需求的相關度等)。
支持多種語言檢索,比如提供中英文搜尋等。
可對結果進行自動分類,如按照域名、國別、資源類型、區域等進行分類整理。
可以針對不同用戶提供個性化服務。
在已有的獨立搜尋引擎的基礎上建立一個高效的
元搜尋引擎能夠擴展獨立搜尋引擎的處理能力,提高檢索的查全率,並且有可能進一步提高查準率。
但是各個成員搜尋引擎的自治性引起了集成的困難,困難主要來自:檢索界面的差異、文檔索引方法的不同、相關函式的差異、查詢參數的不同、檢索功能的強弱等。對搜尋引擎檢索效果的評價機制;成員搜尋引擎的自動調度機制;設計了搜尋引擎描述檔案方法,使系統具有良好的可擴展性;給出了自己的結果融合算法;可以更蹤用戶的使用,接受用戶反饋進行自主學習和調整,使系統具有自適應性。
看了上面的介紹是不是對於元搜尋有一定了解,國內做比較好的元搜尋只有
比比貓,綜合了包括百度、谷歌、
雅虎、
搜狗、中搜、有道、Live在內的眾多中文搜尋引擎;國外的
元搜尋引擎我推薦大家可以看下Dogpile、Clusty。