《基於語義理解的面向特定主題的微博輿情監控技術研究》是依託中國人民解放軍國防科技大學,由李莎莎擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於語義理解的面向特定主題的微博輿情監控技術研究
- 項目類別:青年科學基金項目
- 項目負責人:李莎莎
- 依託單位:中國人民解放軍國防科技大學
中文摘要,結題摘要,
中文摘要
網路輿情監控是當前政府和研究領域最關心的問題之一,而微博又是輿情監控的重點和難點。本項目以目前主流的中文微博為研究對象和平台,針對微博內容產生及傳播迅速、非正規化、信息稀疏等特點,對面向特定主題的微博輿情監控的關鍵技術進行研究,通過對主題和微博文本的充分的語義理解,增強面向特定主題的輿情感知和追蹤的實時性和準確性。首先,針對微博數據非正規化導致傳統自然語言處理技術難以套用的特點,研究消除微博數據噪音的正規化方法;其次,針對微博數據語言個性化、多樣化以及多變性所導致的已有本體庫不適用問題,研究適用於微博數據的微博知識庫的建立與更新;然後,針對微博文本篇幅短小所造成的信息稀疏問題,提出微博數據的語義化表示方法;接著,針對微博數據所具有的高速數據流特點以及微博輿情監控的實時性要求,研究基於語義搜尋的高效流數據處理算法;最後,建立可互動監控機制,通過監控過程中的人機互動,實現監控模型的不斷完善。
結題摘要
本項目以目前主流的微博為研究對象和平台,針對微博內容產生及傳播迅速、非正規化、信息稀疏等特點,對面向特定主題的微博輿情監控的關鍵技術進行研究,通過對主題和微博文本的充分的語義理解,增強面向特定主題的輿情感知和追蹤的實時性和準確性。課題組嚴格按照研究計畫推進研究工作,圓滿完成了課題擬定目標,短文本信息表示、輿情熱點追蹤等多方面都取得了多個關鍵技術突破,並在新浪微博、推特等微博平台實際數據上實驗驗證和分析了算法的可行性和有效性,部分成果得到國內外同行的關注和引用。本課題的主要研究成果包括:基於詞向量語義聚類的微博噪音過濾技術、基於實體連結技術的微博知識庫構建方法、基於概念的短文本表示方法、基於情感的話題熱度預測技術、基於深度置信網路的熱點追蹤技術以及基於用戶信息反饋水軍檢測方法。課題組共在國內外學術期刊、學術會議上發表論文13篇,其中國際英文期刊1篇,EI檢索11篇。培養博士研究生3人、碩士研究生6人。