基本介紹
- 中文名:通用上層模型
- 外文名:Generalized Upper Model
- 簡寫:GUM
- 屬性:獨立於專業領域的語言本體
- 相關概念:本體、本體論等
基本介紹,本體的分類,本體案例,Wordnet,Framenet,GUM,Mikrokmos,SENSUS,知網(HowNet),本體的作用,
基本介紹
GUM是通用上層模型的縮寫。它是獨立於專業領域的基於語言的本體,目的是希望用自然語言的表達方式來組織信息。GUM中使用了多種語言技術組件以支持多語種處理,包含基本的概念及獨立於各種具體語言的概念組織方式。GUM的表示語言是Loom。Bremen本體研究小組在維護GUM本體時,在數據本體工程原理的基礎上使用OWL-DL對GUM進行重新設計,試圖將GUM的公理化進行擴展並對空間語言學領域提供更詳細的解釋。
本體的分類
Guarin提出以詳細程度和領域依賴度2個方面對本體進行劃分。描述或刻畫建模對象的程度較高的稱為引用本體(Reference Ontolgoies),程度較低的稱為共享本體(share Ontologies)。根據本體對領域的依賴程度由低到高分別分成4個類別。
(1)頂級本體(top-level Ontologies)描述最普遍的概念及概念之間的關係,如空間、時間、事件、行為等,與具體的套用無關,其他本體均為其特例。
(2)領域本體(domain Ontolgoies)描述特定領域中的概念和概念之間的關係。
(3)任務本體(task Ontolgoies)描述特定任務或行為中的概念及概念之間的關係。
(4)套用本體(application Ontologies)描述依賴於特定領域和任務的概念和概念之間的關係。
本體案例
目前已開發的本體項目中,大致可以歸類到頂級本體這一類的主要包括以下幾種。
Wordnet
Wordnet是由美國普林斯頓大學認知科學實驗室的George A Miller教授負責開發研製的。它的設計思路來源於心理語言學和人類辭彙記憶的計算理論。迄今為止,Wordnet被認為是計算語義學、文本分析等相關領域研究者可獲取的最為重要的資源。
Framenet
Framenet是美國國家科學基金支持的項目,由美國加州大學伯克利分校的國際計算機科學研究所承擔。目前發展為Farmenet Ⅱ。它採用稱為語義框架的描述框架,由人以機器的形式對語義知識進行標註,提供了很強的語義分析能力。
GUM
GUM是通用上層模型的縮寫。它是獨立於專業領域的語言本體,目的是希望用自然語言的表達方式來組織信息。GUM支持多語種處理,包含基本的概念及獨立於各種具體語言的概念組織方式。GUM的表示語言是Loom。
Mikrokmos
Mikrokmos支持多語種處理,採用一種語言中立的中間語言TMR來表示知識。
SENSUS
面向自然語言處理,為機器翻譯提供概念結構,包括7萬多個概念。Perez和Benjamins在研究了多種本體分類方案的基礎上,歸納出10種類型,分別是:知識表示本體、通用本體、頂級本體、核心本體(或稱元本體Meta/Core本體)、領域本體、語言本體、任務本體、領域——任務本體、方法本體和套用本體。這種劃分方法是對Guarin分類方法的擴充和細化,但這10類本體之間的界限比較模糊,彼此又有交叉,層次不夠清晰。
知網(HowNet)
HowNet是中國科學計算機研究所董強、董振
東的研究成果。德克薩斯大學計算機系知識系統研究小組將HowNet
列為本體項目之一。研究小組對其評價是:“HowNet是一個線上的常識知識庫,用於自然語言處理。它包含中文詞典中概念與概念間的關係,概念的屬性與屬性間的關係。同時還包含了與中文對應的英文概念以及概念的屬性間的關係。”HowNet的基本單元是義原:以義原描述概念,以義原表示概念與概念之間以及概念所具有的屬性之間的關係,其中最重要的是上下位關係。根據義原的上下位關係,所有的“基本義原”組成了一個義原層次體系。
HowNet著重反映的是概念的共性和個性,例如:對於“醫生”和“患者”,“人”是其共性,HwoNet在其主要特性檔案中描述了“人”所具有的共性,那么”醫生”的個性是他是“醫治”的施事者,而“患者”的個性是他是“患病”的經歷者。此外,HowNet的關係描述也是一大特色,除了上下位關係,HowNet還描述了下列各種關係:近義關係、反義關係、部件與整體間的關係、屬性與宿主間的關係、材料與成品間的關係、對逆關係等。
基於上述特色,可將其知識網路體系輸入計算機進行,使知識對計算機而言是可操作的。另外中英文對照的特色使它成為國內外中文信息處理領域引用最廣的本體。
本體的作用
從一般領域套用的角度來理解,本體主要有以下作用。
1.對於領域知識進行分析、明確並使其形式化
一旦明確說明了一個領域中的各種術語,就可對領域知識進行分析。當要重用和擴展現有本體時,對術語的形式化的分析就體現出了它的重要價值。
2.在人、機器(表現為軟體代理)以及人與機器之間共享
對於信息及結構的共同理解,這是本體開發最基本的一個目標。採用術語和關係來編碼領域假設。舉例說明,假設幾個不同的Web站點包含醫藥信息或者提供醫藥電子商務服務,如果這些站點之間共享和發布他們共同使用的術語的本體,那么計算機代理就可以從這些不同的站點中抽取並集合信息,用這些集合的信息來回答用戶的查詢請求或作為其他套用的輸人數據。
3.實現一定程度的領域知識的重用
促進領域知識的重用推動了本體的研究。下面給出一個本體在領域知識重用方面的例子,比如有多個不同領域組織的模型均需要表示時間這一概念,時間的表示包括時間間隔的概念和定義、時間指針、相關的時間測量方法等。如果這些領域和組織中有一個組織詳細開發了滿足要求的本體,其他領域和組織就可以很方便簡單地把這個本體套用到自己的領域中來。此外,如果需要開發一個大型的本體,可以通過集成描述大型本體某些部分的多個現成的本體來實現。
4.本體可以明確領域假設,使領域公理得到明確描述從而達成共知
通過本體可以明確領域假設,這些領域知識的明確說明對於該領域的新用戶了解該領域中的術語非常有用。如果關於領域的知識發生變化,通過本體可以非常容易地改變關於該領域的假設。如果關於領域的假設被隱藏到程式語言代碼中,則這些假設難以發現和理解,更難修改,特別是對那些不懂程式的人更是如此。