《基於詞義的文檔表示模型及多語亞文檔主題分析研究》是依託清華大學,由夏雲慶擔任項目負責人的面上項目。
基本介紹
- 中文名:基於詞義的文檔表示模型及多語亞文檔主題分析研究
- 依託單位:清華大學
- 項目負責人:夏雲慶
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
網際網路加速發展,給以主題分析為核心的輿情監測帶來了機遇和挑戰。主題分析研究目前主要面臨三個難題:(1)基於辭彙或詞簇的文檔表示模型不能有效處理一詞多義和多詞同義等語義現象,因而不能精確表示文檔。(2)面向整篇文檔的主題分析方法無法應對文檔多主題現象。(3)多語言/跨語言瓶頸問題日益突出。針對上述問題,本項目提出基於詞義的文檔表示模型(SCM),具有如下優越性:第一,一詞多義和多詞同義現象在文檔表示階段就能準確體現,文檔表示更加精確。第二,基於詞義的模型對文檔長度具有魯棒性,數據稀疏問題大大減弱。第三,以詞義表示文檔,多/跨語言處理潛力較強。本項目進而提出主題分析的兩項創新性工作:一是面向亞文檔的細粒度主題分析,使主題分析更加準確。二是多語言/跨語言主題分析,提高主題分析的國際化能力。本項目的順利完成,將進一步推進主題分析研究,提高我國輿情監測的水平,從而促進網際網路健康發展。
結題摘要
網際網路輿情監測是關係到國家安全和社會穩定的重要技術產業。目前面臨的主要機遇和挑戰:首先,基於辭彙或詞簇的文檔表示模型不能有效處理一詞多義和多詞同義等語義現象,因而不能精確表示文檔。其次,面向整篇文檔的主題分析方法無法應對文檔多主題現象。最後,多語言/跨語言瓶頸問題日益突出。針對上述問題,本項目設計並實現了基於詞義的文檔表示模型(SCM)。大量對比實驗結果表明,SCM模型比LDA模型由顯著提高。本項目工作主要創新點:一,一詞多義和多詞同義現象在文檔表示階段就能準確體現,文檔表示更加精確。二,基於詞義的模型對文檔長度具有魯棒性,數據稀疏問題大大減弱。三,以詞義表示文檔,多/跨語言處理潛力較強。本項目進而完成了主題分析的兩項創新性套用研究工作:一是面向亞文檔的細粒度主題分析,使主題分析更加準確。二是多語言/跨語言主題分析,提高主題分析的國際化能力。本項目的順利完成,對於進一步推進主題分析研究,提高我國輿情監測的水平,具有重要意義。