《基於篇章特徵的越南語新聞事件信息抽取關鍵技術研究》是依託昆明理工大學,由周楓擔任項目負責人的地區科學基金項目。
基本介紹
- 中文名:基於篇章特徵的越南語新聞事件信息抽取關鍵技術研究
- 項目類別:地區科學基金項目
- 項目負責人:周楓
- 依託單位:昆明理工大學
項目摘要,結題摘要,
項目摘要
本課題擬面向網際網路中的越語新聞信息流,定向、準確抽取新聞事件中的5W1H信息:.F(新聞事件)=P
結題摘要
項目的立意是研究基於篇章特徵的越南語新聞事件信息的抽取技術,也就是,面向越南語的新聞信息流,基於新聞文本的篇章特徵去抽取越語新聞文本中所表達的事件信息。信息抽取的基礎是語料的支撐,課題選取了7大類(政治、經濟、社會、科學、文化、生活、技術)覆蓋面最廣的新聞事件,獲取了12000多條越南語的新聞語料,並對獲取的越南語新聞語料進行解析、類型、類別、分詞、詞性標註、新聞實體標註、觸發詞和事件元素標註等一系列的要素標註工作,並將分析後的語料進行存儲,構建並集成成為一個“漢越新聞事件信息處理平台”。為後續的越語新聞事件信息的抽取提供了良好的基礎。基於平台中標註的詞性、命名實體、事件觸發詞等語料信息,提出了一種識別新聞事件類別信息的方法:選取命名實體、新聞關鍵字和事件觸發詞作為新聞分類特徵,採用最大熵模型實現新聞事件的分類識別。通過七大類新聞事件語料、6000多篇越南語新聞文本進行訓練,獲得越南語新聞文本分類模型,實現了準確率96.97%越南語新聞事件的類型分類。針對新聞報導中分布著表達事件語義關聯信息的一條“信息鏈”這一結論,課題在研究工作中引入了跨越句子層面的篇章級特徵“辭彙鏈、事件鏈”,提出了構建新聞文本辭彙鏈、事件鏈的方法:通過抽取新聞文本中的關鍵字和實體,融合網路語義知識和多特徵解決辭彙的歧義消解,結合詞頻、位置和集聚等一系列特徵,再使用語義相似度進行歧義消除並最終構成表達新聞事件線索信息的辭彙鏈。基於文本的辭彙鏈、領域相關的“謂詞-論元語料庫”,通過識別事件特徵詞、以及事件語義框架中提供的的信息,獲取新聞文本“事件鏈”的方法。本課題研究的核心是信息抽取方法,在“平台+篇章特徵”的基礎上,項目展開了多種新聞事件信息抽取方法的研究:基於跨事件理論提出了新聞事件之間時序關係、因果關係的抽取方法、基於事件鏈結構的識別新聞事件關聯關係的方法、採用後綴樹聚類算法實現越語新聞文本中話題信息抽取的方法、基於依存樹結構來抽取越語新聞事件元素的方法、基於超圖結構抽取新聞話題要素的方法。這些抽取方法的研究,為進一步的“理解”越語新聞事件奠定了堅實的基礎。