人類生活空間和分類,資源空間模型與檔案系統、資料庫系統的關係,資源空間模型的基本概念,資源空間模型的主要內容,資源空間模型方法學,資源空間模型和語義鏈網路的集成及理論,資源空間模型查詢操作完備性和必要性理論,資源空間模型查詢操作的代數和演算理論,資源空間搜尋的複雜性理論,資源空間的物理存儲機制,基於對等計算(P2P)的分散式資源空間,機率資源空間模利,數據空間、數據格線和資源空間模型,資源空間模型的研發,
人類生活空間和分類
人類生活在一個具有資源多樣性的空間裡。為了有效管理形形色色的資源,人們使用了多種分類方法,並發明了各種分類工具。
例如,在超級市場裡面,豐富的商品都是分類擺放的。這種超市管理員和顧客所共同熟悉的分類,既提高了顧客的購物效率,也提高了商品的管理效率。走進中藥店,你會看到,藥材被分門別類地存放在很多抽屜中,每個抽屜上還貼著標籤,用來區分其中的藥材,而且一個抽屜中的每一格只放一種藥材,標籤之間看上去並無一定的順序關係。人們還常常使用不同的工具來管理個人資料。抽屜、書架、檔案袋、資料夾等都是分類管理物品的工具。人們還可以觀察到,學生被分為班級,幼稚園用分類的方一法教孩子們學習基本概念。還可以舉出許多例子來說明分類既是人類有效管理各類資源的方法,也是認識現實世界和綜合經驗的基本方一法。
資源空間模型與檔案系統、資料庫系統的關係
在計算機世界,檔案系統是計算機資源管理的一個里程碑。它可以看作是一個以檔案類型為維的一維資源空間。它是後來人們實現作業系統和資料庫系統的重要基礎。
資料庫系統是計算機資源管理的另一個里程碑。特別是關係數據模型,它以堅實的數學基礎和優美的模型成為集中式數據管理的典範。
網際網路的計算環境與JO多年前發明關係數據模型時的計算環境相比,已經發生了很大變化:原來集中穩定的計算環境發展為分散而動態的計算環境,處理的對象已不再是單純的數據而是多樣異構的資源,套用範圍也由原來單純的數據管理髮展為多樣的資源管理和智慧型服務,用戶和數據擁有者也呈現由原來的以機構為中心發展為以個人為中心的趨勢。這些變化對數據模型的要求已超出了經典數據模型的適用範圍。
網際網路資源空間模型是一種能夠管理網際網路資源的語義數據模型。
資源空間模型的基本概念
資源空間模型是一個通過對資源內容進行分類的規範、存儲、管理和定位網路資源的語義數據模型。n維空間代表了對一個資源集合的n種分類方法。在每一維上給定一個坐標就可定位一個點一一組同類內容的資源。資源空間只關注內容,因而一個點中的資源可以是任何形式。
資源空間可以通過在維上設定約束來實現規範化,從而提高資源管理的正確性。資源空間的範式就是用來實現這種規範化的。第一範式要求坐標名不重複,第二範式要求各坐標相互獨立,第三範式要求各維(軸)互相正交(即互相細分)。還可以根據套用需要定義更嚴格或更寬鬆的範式。
資源空間模型的內在特性決定了它非常值得研究,因為它不是一個普通的距離空間,它的維是離散的,而且每個坐標可以是樹型結構,每個點是一個資源集合,既可以是一個連結,也可以是一個資源空間。在某些情況下,不需要給出所有維上的坐標就可確定一個點。
圖1和圖2分別是兩種支持用戶操作的資源空間可視化界面。用戶可以通過旋轉、切分、合併等方一法,來選擇資源空間中所關心的點。只要選定點,所有同類資源都可以一次性獲得,無論它們是何種形式。資源空間模型還允許套用系統運用類似SQL的語言來操作資源空間。
與資源空間的規範管理相應的是語義鏈網路,它的任意一個結點可以連線到任意一個語義相關的結點,這體現了網際網路套用的自主性。
語義鏈網路是對超鏈網路的自然擴展。它在超鏈上附加一個語義因子來反映語義關係。在一組連結規則的支持下,語義鏈網路支持關係推理。相比之下,超鏈網不具備關係推理能力。規範化和自主性是實現網際網路語義數據模型的2個重要需求。有機結合資源空間和語義鏈網路,可構成兼有規範化和自主性的語義層,該層為高層智慧型服務提供一種共享基礎。
| |
圖1 一個用來管理敦煌文化內容的可視化三維資源空間模型,其中每個小立方體代表資源空間中的一個點,每個點代表屬同類內容的各種類型的資源(文字、書畫、壁畫、彩塑、音樂等)
| 圖2 一個n維資源空間可視化界面
|
資源空間模型的主要內容
資源空間模型包括以下主要內容:
資源空間模型方法學
用於指導資源空間模型的學習、設計和研究,包括資源空間的基本定義和特徵、操作的定義、範式理論、完整性理論、查詢語言和開發方一法。這套理論和模型從形式上看是與關係資料庫理論並行的。兩個模型的不同決定了其範式理論的不同,進而決定了其完整性理論和開發方一法的不同。
資源空間模型和語義鏈網路的集成及理論
資源空間模型和語義鏈網路雖然是獨立發展出來的兩個模型,但二者之間具有內在聯繫,在某種條件下可以互相轉換。把這兩種模型有機結合起來,就形成一個支持資源分類管理和關係查詢的語義數據模型。在此模型下,一個資源既可與同屬於一個點、又可與屬於其它點或其它空間的資源建立語義關係。資源不僅可以按內容來定位,而且可以被用來找到相關的資源。
資源空間模型查詢操作完備性和必要性理論
資源空間模型需要一套資源操作語言來進行資源的查詢、更新和管理。首先,需要提供理論基礎,利用其來判斷所提出的任何一個資源操作子語言的選擇能力的完備性,並且判別結果要獨立於任何嵌入子語言的主語言。例如,首先必須回答以下問題:所定義的操作是否足夠,即是否完備?是否必需?其次,對於各種子語言,哪種子語言的表達能力更強?
通過研究得出結論:操作聯合(Union ) ,區分(Difference)、相交(Intersection )、擴展笛卡兒乘積(Extended Gartesian Product)、選擇(Sclcction )、加入(Join )、拆分(Disjoin) ,合併(Merge)和分離(Split)是資源空間上的一組完備的操作集合;操作聯合(Union )、區分(Difference)、擴展笛卡兒乘積(Extended Cartesian Product)、選擇(Selection)和拆分( Disjoin )是資源空間上的一組完備且必需的操作集合。
資源空間模型查詢操作的代數和演算理論
從資源空間代數和資源空間演算的視角,來探究資源空間模型的查詢能力和表達能力。其中,代數由一個運算元集合以及定義在這些運算元上的一組滿足封閉性的操作構成。演算則是定義在數據模型上的一階謂詞邏輯,它可以描述用戶需要的查詢結果。演算可以用來描述用戶的需求,而代數則用來計算查詢的結果。資源空間模型的代數包括了資源空間模型的5個完備的基本操作。
資源空間模型的代數和演算具有相同的查詢能力和表達能力:給定代數中的一個操作,可以用演算將該操作的結果表達出來;而給定一個用演算表達的查詢結果,可以用代數中一系列的操作將該結果計算出來。
該理論還說明資源空間模型至少具有關係模型的表達能力。
資源空間搜尋的複雜性理論
它揭示搜尋效率和坐標分布的關係以及搜尋效率與維的關係。例如,在資源空間中查找一個點(基於關鍵字的比較),從查找效率的角度來看,空間的維數是越高越好,還是越低越好,或者是其它的情況?每個軸上坐標個數的分布是越平均越好,還是越不平均越好?查找的複雜度和每個軸上坐標個數的分布有沒有關係?
通過考查查找複雜度和每個軸上坐標分布的關係,得到如下結論:從查找複雜度的角度來看,每個軸上坐標的分布越平均越好。通過研究查找複雜度和空間的維數的變化的關係,得出如下結論:資源空間的維數不是越低越好,也不是越高越好,而是存在一個唯一的臨界維數。從查找複雜度的角度來看,具有臨界維數的資源空間是最優的。根據計算得出這個臨界維數的取值大約是1nN ( N是資源空間中的點的總個數)。得到的理論結果有助於對資源空間查找複雜度的計算和理解,同時也能夠用於資源空間結構的設計與分析。
資源空間的物理存儲機制
資源空間的多維離散特性不同於關係資料庫的一維索引和多維索引。它的獨特性需要特定的存儲機制來保障查詢效率。傳統多維空間的存儲要求維上坐標滿足線性序,並用歐氏距離度量資源的鄰近度。存儲資源時把鄰近的資源放在磁碟上相鄰的位置,從而實現高效的資源定位。但是,資源空間模型中維上坐標代表分類,通常沒有線性序,較為常見的是層次語義關係。為保證資源插入、刪除和查找等操作的效率,資源的分類語義越相似,其在磁碟上的存儲位置越靠近。因此,可以定義同軸概念間的語義距離為它們在該軸概念樹上的最短路徑長度,並通過各種組合方一式定義空間中分類點間的語義距離。該距離反映了資源空間分類語義的鄰近度,語義相近的資源可以被放到磁碟的相鄰位置。若干語義相似的空間分類點可以用更為抽象的空間分類點表示,並作為它們的索引項存放在磁碟中。同樣,對抽象後的分類點作進一步抽象,並建立相應的索引項,直至形成一棵樹。該自底向上生成索引樹的方一法類似於傳統多維空間中的索引樹,但最佳化準則更為複雜,要充分考查分類點在各維上層次語義的鄰近度。
由於概念的字元串值長短不一,概念間的層次語義關係可能較為複雜,而資源操作卻要頻繁地判斷概念間層次語義關係和計算它們的語義距離,因此需要對概念進行編碼。資源空間每個軸對應一棵概念樹,所有軸構成一個概念森林。通過將森林轉換到二叉樹,對生成的二叉樹的邊進行編碼,並將根到每個概念的路徑的編碼串作為該概念的編碼。該編碼方一案不僅完全保留了概念間層次語義關係,而且還能支持高效的語義計算。針對編碼可能過長的問題,還設計了無損壓縮編碼。
基於對等計算(P2P)的分散式資源空間
這是一種使資源空間兼有規範化和自主性的方一法,目前包括結構化對等計算資源空間和非結構化對等計算資源空間兩種解決方-案。非結構化對等網路允許資源隨機存放在自組織節點上,節點間的連結是任意的,它具有簡單和可用性、低維護代價以及健壯性好等優點。一個n維的資源空間可以映射到一個分類樹。對等網路上的節點根據自身興趣和資源類型分成不同的社區,這些社區相應於分類樹的葉子節點。每個節點以分層結構化的形式維護鄰居信息,而分層的數目取決於該節點所在分類樹的深度。當一個節點傳送查詢時,首先決定選擇哪層鄰居節點來傳遞查詢。當查詢抵達鄰居節點所在的社區時,基於Gossip的算法就發布該查詢信息。收到查詢信息並且能回答該查詢的節點直接把結果反饋給初始節點。非結構化對等資源空間因同時擁有資源空間模型和非結構化對等網路的優點,所以有助於提高對等網路的性能,是資源空間模型的一種分散式套用方法。
在結構化的對等計算解決方一案中,資源空間被劃分成若干單元,每個單元代表了一個資源空間中的多維矩形。對等計算網路中的每個節點均負責一個單元,並且存儲著位於該單元內的資源信息。每個節點都維持一個鄰居列表。鄰居所負責的單元在空間上是相鄰的。節點利用它所存儲的鄰居信息來路由訊息。路由算法採用貪心的策略,即當前節點總是把訊息傳送給在資源空間中距離目標最近的鄰居。路由的時間複雜度與資源空間的維度和節點個數相關,為,其中n是資源空間的維度,m是節點個數。結構化對等計算中的節點以自組織形式形成一個介於底層對等計算網路和上層資源空間模型之間的覆蓋層。該層中的所有節點都是平等的,不存在超級節點。這樣的設定提高了整個網路的可擴展性。結構化對等計算資源空間解決方一案支持帶有樹結構坐標的資源空間。通過增加長鏈提高整個系統的路由效率。
機率資源空間模利
它支持用戶或套用系統以不確定性的方一式存儲和管理資源,是一種更為普遍的資源空間模型。在最初的資源空間模型中,一個資源要么屬於一個類,要么不屬於一個類。但在很多套用中,人們往往不能準確地判斷一個給定的資源是否屬於一個類。為此,任意一個資源都在每一維上被賦予一個機率隸屬函式,從而將一個資源空間映射到機率資源空間。這樣,資源空間模型的範式理論、完整性約束理論和操作也在機率資源空間模型中得到了更一般化的定義和解釋。
數據空間、數據格線和資源空間模型
谷歌(Googlc)和加州大學伯克利分校(UG Berkeley)等單位的研究人員從套用(個人數據管理、科學數據管理和網際網路結構查詢等)的角度提出數據空間的概念,最近受到資料庫領域的重視。這從一個側面印證了開展資源空間模型研究的選題是正確和及時的。數據空間的目的是圍繞實體來管理數據,以及各實體的數據共存,它還強調數據的多樣性、數據源不確定性和數據獨立性等。目前,數據空間這一概念還處於形成階段。另外一項相關工作是數據格線,它也是從套用(如科學數據管理)的角度提出了大規模數據存儲和元數據管理的方一法。但與關係資料庫相比,數據空間和數據格線明顯缺乏理論和模型基礎。
資源空間模型關注的是:面對一個套用領域、組織或個人的資源,如何建立合適的多維分類體系,並用規範化的分類體系來管理資源,而不論資源呈何種形式和存放在何處。目前資源空間模型已具備完整的理論、模型和方一法。
資源空間模型的研發
資源空間模型在網際網路的套用稱為網際網路資源空間,它是現實的資源空間的一部分。它是一種非常有潛力的有效管理各類網路資源的模型。它的目的不是代替資料庫和檔案系統,而是提供一種新的模型,在資料庫和檔案系統不擅長的某些套用中發揮獨特的作用。它與語義鏈網路、資料庫模型和語義網際網路的研究成果(如網際網路本體語言OWL)的結合,可望為未來互聯環境提供一個強大的語義平台。
2002年,提出了資源空間模型的雛形,利用它來管理網路知識資源,2003一2004年,提出了其主要理論和模型。2007年,系統地發展了其理論、模型和方法。中國科學院計算技術研究所知識格線研究組正在開發資源空間模型系統,完善其理論,並在電子文化(e-Culture.)和電子科學(e-Science)領域開展套用。