《海量實時動態文本流線上主題分析研究》是依託北京理工大學,由毛先領擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:海量實時動態文本流線上主題分析研究
- 依託單位:北京理工大學
- 項目負責人:毛先領
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
針對傳統主題分析技術在本文流的動態性描述和快速處理上面臨的挑戰,設計有效適應文本流內在特性的快速主題分析方法已成為主題建模領域研究的熱點。而現有方法存在刻畫文本流動態規律片面、學習算法效率亟待提高、主題解釋算法複雜度過高等問題。為此,本課題擬從準確性和效率兩個角度深入研究並改進動態文本流的線上主題分析方法。首先,通過層次狄利克雷隨機過程和布朗運動等數學模型刻畫文本流的主題個數變化、主題演化和辭彙變化等動態特性,並通過生成模型方式將這些動態特性與主題模型基本組件進行有機結合,達到準確地刻畫了文本流內在規律的目的;其次,通過設計減小梯度下降方向方差的方法提升主題模型線上學習算法效率;最後,通過將主題解釋問題轉化為機率分布空間中K最近鄰查找問題,以準確而高效地解決主題解釋算法複雜度過高的問題。通過上述工作,將有效地提升文本流主題分析的準確性和效率。
結題摘要
本課題的主要目標是針對傳統主題分析技術在本文流的動態性描述和快速處理上面臨的挑戰,設計有效適應文本流內在特性的快速主題分析方法。具體地,從準確性和效率兩個角度深入研究並改進動態文本流的線上主題分析方法。首先,通過數學模型刻畫文本流的主題個數變化、主題演化和辭彙變化等動態特性,並通過生成模型方式將這些動態特性與主題模型基本組件進行有機結合,達到準確地刻畫了文本流內在規律的目的;其次,通過設計減小梯度下降方向方差的方法提升主題模型線上學習算法效率;最後,通過將主題解釋問題轉化為機率分布空間中K最近鄰查找問題,以準確而高效地解決主題解釋算法複雜度過高的問題。通過上述工作,課題組按原定計畫順利開展了研究,並取得預期的成果,已超額完成了預期的考核指標。 迄今為止,本項目在國際期刊和會議發表學術論文17篇,SCI收錄5篇,EI收錄12篇,其中包括國計算機協會推薦A類期刊會議4篇、B類期刊會議2篇,C類期刊會議5篇、國核心心期刊2篇,國際會議學術報告15人次;申請國家發明專利2項。