《漢越雙語事件語料庫構建及輿情觀點挖掘方法研究》是依託昆明理工大學,由余正濤擔任項目負責人的面上項目。
基本介紹
- 中文名:漢越雙語事件語料庫構建及輿情觀點挖掘方法研究
- 項目類別:面上項目
- 項目負責人:余正濤
- 依託單位:昆明理工大學
項目摘要,結題摘要,
項目摘要
及時有效分析網際網路越南新聞事件對把握越南事件輿情觀點有重要的作用,本課題針對新聞事件及漢越語言特點,研究漢越雙語事件本體知識庫及語義語料庫構建、新聞事件話題發現與追蹤、事件輿情觀點挖掘方法。首先,定義新聞事件分類體系,構建事件類別術語、事件關係、事件觀點等義原類層次樹,構建漢越雙語事件本體知識庫及帶語義要素標記的事件語料庫,為分析漢越事件提供知識與語料基礎。其次,針對漢越雙語事件話題產生演化特點,融合雙語語言知識、事件本體知識、事件對齊等特徵,研究融合雙語主題分析和進化聚類的話題發現與追蹤方法,解決雙語混合事件話題探索與追蹤問題;在此基礎上,針對事件間及事件內部特徵關聯特性,融合事件間關聯、句子間關聯、實體關聯及雙語關聯等特徵,研究基於圖模型的雙語觀點句識別、觀點分析、持有人分析及傾向性分析方法,解決融合關聯特徵的雙語事件觀點挖掘問題。成果將為有效分析漢越雙語輿情事件提供資源及技術支撐。
結題摘要
漢越雙語輿情分析是多語言分析的難點,項目圍繞漢越雙語事件知識庫構建、話題分析、輿情觀點挖掘等關鍵問題進行研究與探討,在以下8個方面取得了進展:1.漢越雙語知識構建及語言信息處理方面,建立了12萬漢-越雙語電子詞典,200多條漢越語法知識庫,5萬越南語句子依存樹庫。結合越南語特點,研發了越南語分詞、詞性標記、實體識別、依存句法分析等分析工具,為漢越語言信息處理提供支撐;2.在輿情事件本體庫建設方面,定義了軍事事件、政治事件和經貿事件等9大類雙語新聞事件本體知識庫,構建了500多篇新聞帶語義要素標註的語料庫;3.在漢越新聞事件要素抽取方面,利用多語言新聞要素關聯特點,提出基於超圖的漢越雙語新聞要素抽取方法,提高多語言新聞要素抽取的精度;4. 在跨漢語-越南語輿情事件檢索方面,藉助漢越雙語新聞事件屬性關聯的特點,提出了基於屬性關聯圖的漢越雙語新聞事件排序方法,在跨語言事件檢索方面取得了很好的效果;5. 在話題分析方面,提出了基於關聯圖聚類及基於新聞要素語義關聯的跨語言新聞話題發現方法,可實現跨語言新聞話題發現;提出了基於中餐館算法的漢越雙語線上話題發現方法,可實現線上話題發現;提出基於雙語主題及因子圖模型的漢越雙語新聞話題關聯方法,實現雙語新聞話題關聯分析;6. 在漢越雙語輿情觀點挖掘方面,結合新聞事件要素及情感關聯特點,提出了基於要素及情感關聯的漢越雙語新聞句子觀點分析方法,提高了觀點句提取的準確率。提出了基於卷積神經網路的漢越雙語跨語言情感傾向性判別方法,實現跨語言情感傾向性分析;7.在觀點摘要方面,提出基於圖排序的漢越新聞觀點句摘要方法及基於無向圖模型的新聞差異摘要生成方法,根據雙語句子相似度與差異度構建漢越雙語無向圖模型,可有效實現漢越新聞摘要及差異性摘要生成;8.研發了面向漢語-越南語雙語新聞事件輿情分析系統,實現了漢語-越南語雙語新聞事件輿情分析,並在網信、國安等部門得到套用。發表論文69篇,其中SCI收錄14篇,EI收錄19篇,國際頂級期刊及會議6篇,授權發明專利1項,申請發明專利11項,負責人通過培養入選國家百千萬人才,國家有突出貢獻專家,培養博士研究生2名,培養碩士研究生34名。