《面向Web文本的屬性和屬性值知識獲取方法研究》是依託北京理工大學,由張春霞擔任項目負責人的面上項目。
基本介紹
- 中文名:面向Web文本的屬性和屬性值知識獲取方法研究
- 依託單位:北京理工大學
- 項目負責人:張春霞
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
概念及其實例的屬性和屬性值知識獲取是Web文本挖掘和信息抽取中的前沿性課題。屬性和屬性值知識是本體的核心組成部分,是構建語義Web的重要基礎,也是實現知識共享和互操作的前提。屬性和屬性值知識獲取已成為制約信息檢索和文本分類等智慧型信息處理技術發展的瓶頸。現有的研究工作主要是從結構化網頁、以列表型文本為主的半結構化網頁中抽取顯式類型的屬性和屬性值,相關方法往往受限於特定的領域、概念或屬性。針對這些問題,本項目將系統地研究從Web文本中獲取概念和概念實例的屬性和屬性值知識的理論模型和核心方法,具體包括:(1)屬性和屬性值知識在Web文本中的表達模型和方法;(2)屬性和屬性值的多維分類體系;(3)具有領域自適應性的顯式和隱式的屬性和屬性值知識的抽取和學習方法;(4)屬性和屬性值知識的驗證方法。在此基礎上,開發一個概念和概念實例的知識獲取平台,並在該平台上評估和分析提出的知識抽取、學習和驗證的方法。
結題摘要
本項目的研究目的是從Web文本中獲取概念和概念實例的屬性和屬性值知識,研究內容包括屬性和屬性值知識表示、抽取、學習和驗證的模型和方法,並開發一個屬性和屬性值的知識獲取平台。 在屬性和屬性值知識表示和分類方面,構建了屬性和屬性值知識在文本中的表示模型。根據概念屬性的屬性值的特點,構建了概念屬性的分類體系。根據概念屬性的屬性值之間的關係,構建了概念的屬性關係的分類體系。在概念實例或實體的提取方面,提出了一種基於並置網路的弱監督的開放領域細粒度實體提取方法。 針對給定目標屬性的屬性值抽取和學習問題,提出了一種集成式的具有領域自適應性的方法,該方法融合了多層模式、分類器和推理規則。針對旅遊領域實體屬性和屬性值知識獲取問題,構建了旅遊領域知識圖譜,研製了一種基於混合式的屬性值學習方法和一種基於學習排序的屬性值融合方法。針對文本特徵提取和特徵選擇問題,提出了基於指導式的潛在狄立克雷分布參數估計和基於語義關聯模型的特徵提取方法,以及一種基於相對類別差異的特徵選擇方法。 針對未給定目標屬性的屬性和屬性值抽取和學習問題,提出了一種基於多粒度語義塊的具有領域自適應性的屬性和屬性值抽取和學習策略、一種基於搜尋引擎問答式的屬性和屬性值抽取策略。第二種策略從搜尋引擎檢索結果中抽取答案,由此轉換和獲取屬性和屬性值。其中,提出了一種自適應半監督超限學習算法進行問題分類,研製了一種基於熱詞和組合評分的實體類型答案抽取方法。針對傾向性屬性值辭彙構建問題,提出了一種基於約束標籤傳播的傾向性屬性值辭彙構建方法。針對事件時序屬性知識抽取問題,設計了一種基於遲化理論的多文檔事件時序摘要提取方法。 在屬性和屬性值知識驗證,即屬性和屬性值知識的不一致性和不完全性評估方面,提出了一種基於屬性關係分類體系的知識驗證方法。另外,開發了屬性和屬性值知識獲取平台。概念和概念實例的屬性和屬性值知識可套用於信息檢索、社會計算和網路輿情監控等領域。