基於淺層文本理解的社會關係網路構建研究

基於淺層文本理解的社會關係網路構建研究

《基於淺層文本理解的社會關係網路構建研究》是依託蘇州大學,由錢龍華擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於淺層文本理解的社會關係網路構建研究
  • 項目類別:面上項目
  • 項目負責人:錢龍華
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

目前的社會關係網路構建通常基於大規模文本中的人物共現關係來實現,這就導致了兩個主要問題:一是社會關係網路不夠完整,缺乏豐富的關係類型,忽略了人物社會關係的多重性;二是沒有考慮自動抽取出的社會關係的可信度,限制了社會關係網路的表現力和推理能力。為了提高社會關係網路的完整性和可靠性,本項目的研究內容包括:(1)提出基於分層採樣的種子選取策略和基於複述技術的種子集擴展方法,並把它套用於弱指導社會關係抽取;(2)基於馬爾可夫網路模型,研究多名聚合和多重關係抽取的聯合學習策略;(3)深入探索社會關係網路的可信度表示和計算方法。通過本項目的研究,可以從自然語言文本中自動構建更完整、更豐富和更可靠的社會關係網路,為下一步的實際套用提供良好的理論依據和實踐基礎。

結題摘要

本項目的出發點是利用自然語言處理中的淺層文本理解技術從自然語言文本中挖掘出人物相關實體及其相互語義關係,並從中構造出具有豐富關係類型和關係可信度的社會關係網路,從而為社會網路分析和研究提供一定的理論價值和大規模的套用實例。 本項目研究和實施了與社會關係網路構建相關的語料庫建設、弱指導人物關係抽取、社會關係網路構建等三個方面的工作,同時也將研究成果拓展到實體關係網路的其它套用,如生物實體關係的抽取和生物實體關係網路的構建。 社會關係網路構建相關的語料庫建設:本項目構建了中文維基百科實體知識庫、中文實體連結語料庫、實體關係雙語平行語料庫和中文嵌套實體及關係語料庫等四個語料庫,為社會關係網路的構建過程中的人物實體的識別、人物實體到關係網路中的映射和人物實體間關係的抽取提供了高質量的訓練語料。 人物關係抽取及家庭網路構建研究:研究基於自舉和自監督的人物關係抽取和關係網路構建方法,一方面,通過自舉可以從極少數的種子實例上通過疊代方式準確地抽取出人物的家庭關係,進而構造出人物家庭網路,另一方面,藉助於自監督學習方法從中文維基百科的半結構化信息自動生成訓練語料,然後據此從文本中獲取人物間的家庭關係,構建社會關係網路。 基於平行語料的雙語實體關係抽取研究:在通過機器翻譯構建的偽平行語料和人工標註的實例級平行語料基礎上,採用雙語協同訓練和雙語主動學習的方法實現弱指導關係抽取,探索如何充分利用不同語言之間的冗餘性和互補性來減輕有監督機器學習方法對大規模訓練數據的需求。 生物實體關係網路抽取研究:一方面採用基於特徵向量、深度學習和遠程監督的學習方法從生物醫學文獻中抽取藥品和疾病關係,大大提高了生物醫學實體關係抽取的性能。另一方面,在句子級標註的實體因果關係網路上,通過基於機器翻譯的對齊方法構建可直接用於機器學習的訓練語料,有助於採用層次序列化標註模型構建生物實體關係網路。

相關詞條

熱門詞條

聯絡我們