《面向大規模動態短文本的快速聚類及演化分析技術研究》是依託哈爾濱工業大學,由劉銘擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向大規模動態短文本的快速聚類及演化分析技術研究
- 依託單位:哈爾濱工業大學
- 項目類別:青年科學基金項目
- 項目負責人:劉銘
項目摘要,結題摘要,
項目摘要
隨著信息產業的飛速發展,以社會化網路為基礎的虛擬交流平台逐漸成為用戶參與網路討論、獲取信息的重要工具,而其中的海量動態短文本中蘊含了豐富的知識。因此,如何對這些海量的數據進行聚類分析,進而從這些數據中獲取用戶關注的信息、並掌握信息的演化過程逐漸成為研究的熱點。然而由海量短文本數據引入的高維向量稀疏和語義相似問題,阻礙了傳統的面向長文本的聚類分析技術在其上的套用,因此本項目擬通過分散式詞聚類來降低特徵空間的維度,擬通過疊代的相似度計算方法來獲得短文本間的語義相似度。在此基礎上,本項目擬藉助實現面向大規模動態短文本的快速聚類來獲取信息的演化過程,並依此反映用戶的關注點在不同時間段內的整體變化趨勢,進而以格線量化其變化幅度,以標籤揭示其變化內容。
結題摘要
隨著信息產業的飛速發展,以社會化網路為基礎的虛擬交流平台逐漸成為用戶參與網路討論、獲取信息的重要工具,而其中的海量動態短文本中蘊含了豐富的知識。因此,如何對這些海量的數據進行聚類分析,進而從這些數據中獲取用戶關注的信息、並掌握信息的演化過程逐漸成為研究的熱點。本課題在實現面向大規模動態短文本的快速聚類的基礎上,完成信息演化分析的原型系統。該系統可以很好的應對由海量短文本數據引入的“高維向量稀疏”和“語義相似”問題,所面向的數據源為社會化網路中的大規模動態短文本數據。實驗結果顯示:該系統以可視化的標籤集合來揭示網路中不同信息的演化過程,並依此反映用戶的關注點在不同時間段內的整體變化趨勢,能夠在幾分鐘內完成對千萬篇規模的短文本數據的分析與處理工作,且保證分析準確率在80%以上。項目共發表論文14篇,申請專利2項,論文中,CCF A區論文3篇,CCF B區論文2篇,SCI 檢索 6篇,EI 檢索6篇。