中文領域本體學習及半自動構建方法研究

《中文領域本體學習及半自動構建方法研究》是依託福州大學,由於娟擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:中文領域本體學習及半自動構建方法研究
  • 依託單位:福州大學
  • 項目類別:青年科學基金項目
  • 項目負責人:于娟
項目摘要,結題摘要,

項目摘要

領域本體是利用計算機實現知識共享和重用的基礎,但是構建領域本體是一項困難的任務。由於缺乏完善的方法論支持,中文領域本體的構建尤為困難。本項目通過將本體學習方法集成到本體構建過程,半自動地高效地完成中文領域本體的構建任務。主要研究內容:(1)獲取領域概念集合的本體學習方法,研究從電子化的顯性知識源中自動提取領域專有術語的方法、自動甄別同義術語的方法、形式化地定義和描述概念的方法;(2)獲取概念間關係集合的本體學習方法,研究從知識源中自動獲取相關概念對的方法、命名和形式化本體關係的方法、甄別和剪枝冗餘關係的方法;(3)研究基於本體學習的中文領域本體的半自動化構建方法。

結題摘要

領域本體在知識共享和語義檢索等知識管理活動的套用前景日益明顯,但構建領域本體是一項繁瑣而困難的工程,人工構建效率低、結果差,阻礙了基於領域本體的套用的研發。為此,本項目以降低中文領域本體的構建難度為研究目標,結合統計學和自然語言處理的理論與方法,研究了一系列能夠自動獲取中文領域本體對象的本體學習方法,並研發相應的本體半自動構建方法及軟體工具,以促進我國利用計算機來實施知識管理。 項目主要研究內容: (1)研究了獲取領域概念集合的本體學習方法。領域概念集合是領域本體的關鍵基礎。本項目首先研究了從中文電子文檔中自動提取詞語的方法;分析領域專有術語在領域文檔及非領域文檔中出現的統計規律,研究了自動提取領域專有術語的方法;然後,研究了自動識別同義術語的方法,將每一組同義術語合併為一個領域概念。給定合適的中文電子文檔集,這一系列方法能夠以令人滿意的性能自動地獲取領域概念集合。 (2)研究了獲取本體關係集合的本體學習方法。本體關係集合描述領域概念之間的語義關係,是領域本體的主要構成部分。基於領域概念集合,本項目首先採用語境分析和統計分析方法,研究了如何自動發現相關概念對;將其初步形式化為本體關係之後,研究了如何消除其中的冗餘關係,得到領域本體的關係集合。給定合適的中文電子文檔集,這一系列本體關係學習方法能夠支持領域本體關係集合的自動構建。 (3)研發了一套中文領域本體的半自動構建軟體工具。基於(1)和(2)所研發的中文領域本體學習方法,借鑑已有的本體學習工具,本項目設計實現了一個中文領域本體學習工具的原型系統。該原型系統主要包括3個模組:領域概念學習模組、本體關係學習模組和本體形式化模組。給定合適的中文電子文檔集,該工具可用於領域本體的(半)自動構建。 項目主要研究結果:在給定合適的中文電子文檔集的條件下,採用本項目所研發的一系列中文領域本體學習方法及半自動構建軟體工具,能夠自動地獲取領域概念集合和本體關係集合,構建輕量級的領域本體。這些方法和軟體均經多次實驗和修改,主要性能指標比已有研究均有提高。自動構建所得到的輕量級本體可用於支持知識共享和語義檢索等知識管理活動。若套用所需為重量級本體,則將學習結果交由領域專家進行人工修正和完善。

相關詞條

熱門詞條

聯絡我們