《基於傾向性演化學習的新聞話題變種檢測方法研究》是依託蘇州大學,由洪宇擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於傾向性演化學習的新聞話題變種檢測方法研究
- 項目類別:青年科學基金項目
- 項目負責人:洪宇
- 依託單位:蘇州大學
項目摘要,結題摘要,
項目摘要
新聞話題檢測是輿情分析領域中的重要研究課題,對於輿情的監督、管理和調控有著很高的實用價值。特別是新聞話題的變種檢測對於突發事件和敏感話題的預報尤為重要。目前,針對話題變種檢測問題的探索尚未開展,藉助輿情的傾向演化解釋話題變種衍生規律的研究在國內外尚屬空白。本課題將重點研究新聞話題和傾向性的協同演化規律以及相應的機器學習策略,並探索話題變異錨點的實時檢測和話題變種的描述方法。本課題的主要研究內容包含如下四個方面:基於時序事件鏈的話題建模、基於能願動詞的傾向性識別、話題與傾向性協同演化的自適應學習、實時話題變種檢測。特別是研究融入事件時序屬性的結構化動態話題建模;利用能願強度層次體系的傾向性演化描述;以及依賴傾向強度和事件突發性依存關係的協同演化數學建模。目標是實現針對輿情信息中傾向性和話題協同演化的自動監控,以及話題變種的有效識別與預報。
結題摘要
本課題旨在實現一種面向新聞流媒體的話題變種檢測方法。針對這一目標,計畫研究任務包括:自由文本的事件抽取方法;以事件為元素的動態話題建模方法;基於能願傾向的話題變異識別方法;以及變種話題的組裝與描述方法。根據研究計畫,課題組於近三年對上述各個研究點進行了系統分析與研究,提出成型方法多套,學術成果得到國際頂級學術會議的認可與發布,總體進展順利。下面對本課題取得的研究成果進行概述。(一)建立了以分類技術為基礎的自由文本事件抽取方法,測試並驗證了各類語言特徵和統計信息在事件類型、觸發詞、元素和角色的分類抽取過程中的作用,並重點形成一種跨實體推理的事件分類抽取方法,抽取性能優於國際同期相關技術7個百分點。這一成果於2011年在國際A類學術會議ACL上以長文形式發表;(二)驗證了動態話題模型對捕捉話題在新聞信息流中變遷軌跡的優越適應性。在此基礎上,提出並實踐了多種動態話題模型,如時序事件鏈式話題結構,雙層事件聚類的層次話題結構,基於聚類樹的樹形話題結構。其中,動態話題模型的驗證尚屬首次,由此形成的事件鏈動態話題模型在國際權威數據TDT上的話題檢測與跟蹤任務上,分別獲得約16%和6%的性能提高。此外,層次話題模型和聚類樹模型已實際套用於微博話題檢測;(三)構建了一套能願詞庫,包含能願詞1,896項,相應能願強度指標和套用實例。開發了一種自適應的能願詞新詞識別和挖掘方法。藉助該詞庫,本課題形成了一套以人的能願傾向為線索,對話題變化進行先驗識別與估計的方法。該方法在以商品評論滿意度預測為套用場景的實驗中,取得了評論話題變異的準確識別。相關成果以長文發表於2012年國際A類學術會議SIGIR;(四)提出一種以篇章關係檢測為基礎變種話題描述方法,建立了基於能願傾向的話題變種檢測系統。三年來,發表核心和EI論文30餘篇;國際頂級會議CIKM/SIGIR/ACL等論文5篇;國內一級學報“計算機學報”和“軟體學報”3篇,形成並申請專利4件。