基於短文本的知識庫自動更新關鍵技術研究

《基於短文本的知識庫自動更新關鍵技術研究》是依託北京理工大學,由宋丹丹擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於短文本的知識庫自動更新關鍵技術研究
  • 依託單位:北京理工大學
  • 項目負責人:宋丹丹
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

知識庫對於知識的整理和利用具有重要意義,但傳統的知識庫更新由於依靠人工編輯導致內容滯後問題嚴重,使得知識庫的自動更新成為研究熱點。近年來快速增長的短文本數據因其具有海量性、實時性、信息特有性等優點成為知識庫更新的一個重要數據來源。但是,由於短文本內容少、噪聲多、表述多樣、語法不規範,給自動更新過程帶來很大挑戰。 本項目研究基於短文本的知識庫自動更新關鍵技術,具體包括:針對海量實時短文本的索引需求,構建引入密度的改進依存文法模型,提出面向實體信息的短文本可索引內容識別方法;研究稀疏特徵空間上的可用特徵擴展方法,通過引入時空信息進行有效特徵擴展;基於有限標註數據,提出融合分類與排序目標的訓練和分析方法,進行實體-短文本相關性分析;提出語義規則模板自學習算法,研究短文本中實體信息的自適應抽取。從而實現基於海量、實時、多樣的短文本進行知識庫自動更新的目標。

結題摘要

近年來隨著維基百科、中文百科等知識庫的發展,知識庫成為信息積累的重要平台,對於知識的整理與有效利用具有重要意義。為了解決人工維護的方式使得知識庫更新嚴重滯後的問題,本研究基於具有海量、實時、特有等特性的短文本,圍繞在基於短文本的知識庫自動更新的關鍵技術開展研究,提高知識庫中信息的數量與質量。 (1)提出了融合知識圖譜和概念信息的知識庫實體表示方法,在由三元組表示的知識圖譜中融合概念信息,使實體嵌入和詞嵌入共享相同的向量空間,最後得到同時含有結構化語義和非結構化語義信息的實體向量表示。 (2)提出了融入偏好信息的累積引文推薦的實體-引文分類方法及聯合分析模型,把同類訓練實例的差異信息融入到支持向量機中,並稱這種同類訓練實例的差異信息為偏好數據對。為了求解模型的最佳化目標函式,設計了一個自適應的序列最小化最佳化算法,提出了兩層啟發式採樣方法,有效地從訓練數據中選擇有效的偏好數據對。 (3) 提出了一致對抗訓練增強的生成對抗網路,能夠在有限的開銷範圍內,構造數量幾乎無窮的辨別器。為避免冗餘,這些辨別器要表現出不同的評價標準,即對真實樣本一致支持,而對於生成的樣本則可以從不同方面找到不支持的理由,如樣本中的畸變、污點和殘缺等。在訓練中,讓辨別器對真實樣本表現一致,而對生成樣本不一致,使生成器能夠學會如何生成對不同辨別器都評估一致的樣本。 (4)研究了辯論文本中的組織短語挖掘方法,提出了一種隱變數模型——shell主題模型,同時建模主題和shell。對於組織短語,使用二元模型對其建模;對於主題內容,使用一元模型對其建模。能夠標識shell短語;與不區分shell和主題內容的基線方法相比,區分shell和主題內容的方法有助於提升相應任務的性能。

相關詞條

熱門詞條

聯絡我們