分散式檢索

分散式檢索

分散式檢索是指在分散式的環境中,利用分散式計算和移動代理等技術從大量的、異構的信息資源中檢索出對於用戶有用的信息的過程。這裡的分散式環境指的是信息資源在物理上分布於不同的地點,在資料庫結構上具有異構性,但是這些分散和異構的信息資源在邏輯上是一個整體,從而構成一個分散式檢索系統。

基本介紹

  • 中文名:分散式檢索
  • 外文名:distributed search
  • 主要技術分散式計算、移動代理等
  • 特點:數據規模相對較大等
  • 套用:信息檢索的一種類型
  • 學科:信息技術
簡述,原理,技術,特點,

簡述

分散式檢索是信息檢索的一種類型,它是針對網路環境下信息分散式存儲而產生的一種檢索形式。常見的有跨庫、跨伺服器檢索。在網路環境下,信息資源往往存儲在地理上分散的多個不同場地,即結點中。這些結點具有資源建設的自主性和獨立性,如果將其相互連線,形成一個彼此協調的系統,便成為分散式處理系統,其工作由系統的後台軟體完成。
分散式處理是在一個高級作業系統協調下共同完成同一任務的處理方式。分散式處理系統必須有能力在短時間內動態地組合成面向服務對象的系統。高級作業系統是分散式處理的關鍵。在分散式系統中無需使用完整的信息,高級作業系統根據這些分散的狀態信息進行任務協調和資源再分配,各組成部分之間自主存在、沒有層次關係。
分散式信息檢索是建立在分散式處理系統之上的用戶檢索服務。是由檢索代理程式將用戶的檢索任務同時提交給網路上的多個主機,由位於這些主機上的檢索程式分別獨立檢索並將檢索結果返回到檢索代理程式,經過整理後顯示給用戶。
分散式系統具有潛在的有效性、高性能、高可靠性和低成本等方面的優勢,支持組織機構信息管理模式從集中式向客戶機伺服器方向發展,並能有效地實現組織內部及組織之間在內容和形式方面日益增長的信息交流要求。分散式系統的特徵包括遠程、並發、異步、異構、自治、進化、可移動、無全局狀態和局部失敗。這些特徵是其功能優勢的基礎,同時也為實現技術提出了較高的要求。
一般分散式信息檢索適用於以下情況:相同類型資料庫較多且存儲位置比較分散,隸屬於不同的部門,相互之間是異構的。隨著網上信息的不斷增多和分散,分散式信息檢索將會越來越受重視。

原理

一個簡單的分散式檢索系統由多個數據集伺服器(collection servers)和一個或多個代理處理器(broker)兩個部分組成。在有一個代理處理器的檢索系統中,用戶向broker提交檢索提問式,broker用該檢索提問式檢索數據集伺服器的子集而完成信息的查找。子集中的每個信息庫伺服器反饋給broker一個按相關度由大到小排列的信息列表。最後,broker對所有的結果列表進行整合形成新的信息列表反饋給用戶。但是,由一個代理伺服器進行的分散式檢索系統存在一定的局限性:
(1)一個代理伺服器難以管理大量的信息庫伺服器。
(2)系統的可擴展性差。
(3)軟體的移植性、互操作性、重用性及安全性差。
由於上述局限性,大多數分散式檢索系統都是由多個代理伺服器組成的多級代理的分散式檢索系統。在一個分散式的檢索系統中有一個總代理系統和多個子代理系統,每個子代理系統還可以有它的子代理,最底層的代理系統有一個或多個搜尋引擎來對最底層的資料庫進行檢索。

技術

由於不同的信息資源具有不同的資料庫結構,因此.在分散式環境下,對於異構數據的檢索和訪問並不是想像中那么簡單。解決分散式檢索的技術很多,如用於分散式資料庫設計與實現的分散式對象組件模型(DeOM)和公共對象請求代理構架(CORBA)、用於解決分散式環境下資料庫之間異構問題的Z39.50協定、P2P網路結構技術等。代理技術同樣也可實現分散式檢索,分散式環境下代理技術的檢索功能包括:
(1)從用戶或代理伺服器那裡接受提問。
(2)把接收來的提問翻譯成檢索軟體可識別的語言,即檢索提問式。
(3)確定哪些信息資源包含與檢索提問式最相關的信息。
(4)利用檢索提問式對確定的資源進行檢索。
(5)收集相應的檢索結果。
(6)對檢索結果進行整理。
(7)把整理好的結果提供給用戶。
從代理技術的功能上看,在一個分散式檢索系統中,希望提供多個代理,當前在分散式檢索中常用的代理技術是移動代理技術,又稱智慧型代理技術。移動代理(mobile agent)是一種網路計算技術,通常是指使用代理通信協定進行信息交換,以實現問題自動解決的一種軟體程式。智慧型代理可以在用戶沒有明確具體要求的情況下,根據用戶需要,代替用戶進行各種複雜的工作,如信息查詢、篩選、談判、管理等,並能推測用戶的意圖,自主制訂、調整和執行工作計畫。移動代理動態分布於遠端主機並可以在不同主機上進行移動,因此,移動代理可以完成代理的上述多項功能,成為分散式檢索中常用的技術手段。

特點

利用分散式計算進行信息檢索稱為分散式檢索。與並行檢索比較,分散式檢索的主要特點在於:
其一,分散式檢索通常處理的是地理位置分散的異構數據,不同地理位置計算機系統間通信的開銷比較大,因此,分散式檢索中應該儘量避免不同地理位置計算機系統之間的通信操作。就通信本身而言,由於不同系統的異構性,分散式檢索系統中通常採用TCP/IP協定來實現通信,而並行檢索中處理器之間的通信可以通過共享記憶體來實現。
其二,分散式檢索的數據規模相對較大,每個節點的處理能力又不盡相同,因此,分散式檢索通常只選擇某些數據子集進行檢索,而不是像並行檢索那樣,需要返回每個數據子集的結果。
其三,分散式檢索的對象的異構性使得統一描述和訪問成為必須要考慮的問題。

相關詞條

熱門詞條

聯絡我們