本體導向的大規模語義信息聲明式抽取方法研究

本體導向的大規模語義信息聲明式抽取方法研究

《本體導向的大規模語義信息聲明式抽取方法研究》是依託武漢大學,由李旭暉擔任項目負責人的面上項目。

基本介紹

  • 中文名:本體導向的大規模語義信息聲明式抽取方法研究
  • 項目類別:面上項目
  • 項目負責人:李旭暉
  • 依託單位:武漢大學
項目摘要,結題摘要,

項目摘要

大規模數據的語義信息抽取是構建各類語義信息服務的基礎。利用以聲明式查詢為代表的數據管理方法實現信息抽取則是當前相關領域的前沿研究課題。然而現有研究缺乏合適的語義數據模型作為支撐,導致抽取過程中語義信息處理與語義數據結構割裂,阻礙了數據管理方法與信息抽取技術的深度融合,不利於實現大規模信息抽取任務。為此,本項目將設計面向信息抽取的語義數據模型,以合理一致的形式反映數據語義在抽取過程中呈現的多層次、多刻面、多義等特徵;利用能歸納數據特徵的抽取模式設計聲明式查詢語言以表現抽取需求,並研究相應的適於語義信息抽取的處理代數和最佳化方法;通過本體概念映射和重要度分析設計信息抽取策略,實現本體導向的大規模語義信息的半自動抽取。該研究能從語義演化角度體現抽取特點,通過數據特徵歸納刻畫抽取需求,基於查詢處理實現抽取計算,利用本體信息驅動抽取任務,構建實用系統驗證抽取方法,具有較強的理論價值與廣闊的套用前景。

結題摘要

當前各行業領域普遍存在大量的非結構化文本數據需要抽取出結構化語義信息並進行管理。如何構建適應大規模領域數據的語義信息抽取系統成為一個具有較強理論價值和廣闊套用前景的研究問題。本項目從語義數據建模角度出發,探討了利用基於合適的語義數據模型設計類本體的語義規則以描述目標語義信息模式,利用聲明式語義查詢語言來描述語義信息抽取計算需求,利用語義數據的組織與查詢處理機制來實現大規模語義信息抽取計算的基礎理論框架。本項目對前期研究成果進行拓展,研究並建立了基於樹圖結構的語義數據模型,這些模型能夠較好的反映事物的多刻面、多層次的語義特徵,並能夠與以半結構化文檔數據為載體的語義信息較好的結合。著重研究了對樹狀半結構化語義數據進行聲明式語義查詢的表示方法和語義模式的映射機制,利用支持合取和析取模式的邏輯樹結構擴展了以XML文檔為代表的半結構化數據模式,並設計了相應的邏輯樹模式映射機制和樹狀半結構化文檔查詢語言。同時,研究了面向大規模樹狀結構數據利用壓縮點陣圖的物化視圖進行查詢最佳化的相關機制,該方法通過對解答查詢的物化視圖進行歸納,找到一組最優視圖集合來加速查詢執行效率。此外,探討了當前文本信息抽取技術的相關熱點問題,著重研究了短文本中的主題信息抽取、特徵抽取問題,採用兩階段隨機行走方法改進視角聚類以歸納LDA方法獲得的主題信息,對大規模數據流能夠有效和準確地揭示核心主題的內在特點並能預測其發展趨勢。同時開展了利用短文本特徵抽取和分類機制進行作者身份分類識別的研究,利用文本辭彙、句法特徵分析以及概念類關聯擴展等機制,有效地識別了社會媒體短文本的作者年齡、性別等身份。本項目從大規模語義信息抽取的實際需求出發,在語義建模、聲明式抽取表現、語義查詢最佳化、信息抽取關鍵技術等多個方面取得了較好的理論研究成果。同時構建了語義信息抽取的原型系統和工具並在相關行業推廣套用,取得了較好的社會與經濟效益。

相關詞條

熱門詞條

聯絡我們