基於吸引子傳播的半監督文本挖掘方法研究

基於吸引子傳播的半監督文本挖掘方法研究

《基於吸引子傳播的半監督文本挖掘方法研究》是依託吉林大學,由管仁初擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於吸引子傳播的半監督文本挖掘方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:管仁初
  • 依託單位:吉林大學
項目摘要,結題摘要,

項目摘要

隨著網路技術的飛速發展,各種文本信息呈爆炸性增長。面對海量文本數據,傳統文本挖掘算法需要計算高維稀疏矩陣,過高的計算複雜性嚴重阻礙了文本挖掘技術的套用。近年來,半監督學習和吸引子傳播聚類逐漸興起。為此,本項目主要研究基於吸引子傳播的半監督文本挖掘方法。其內容主要包括:(1)針對具體文本挖掘問題和數據,提出包含文本結構信息的非歐空間多尺度相似性度量。(2)構建融合新相似性度量、多種半監督學習策略和吸引子傳播聚類的新半監督文本聚類模型和算法。(3)研究基於多文檔、多尺度、多類別的雙層半監督吸引子傳播聚類自動文摘模型和算法。(4)在文本挖掘框架下,對多種半監督學習策略和多種聚類算法進行系統地交叉比較,分析影響半監督聚類的關鍵因素,套用函式擬合、最小二乘法等方法預測各種算法聚類性能曲線的最佳平衡點,為算法實際套用提供指導。項目研究成果將為自然語言處理、信息檢索等領域提供更加有效的方法和手段。

結題摘要

本項目設計和實現了吸引子傳播框架下的半監督文本挖掘分析模型和算法。主要工作如下: 1. 為解決傳統聚類算法(如k-means算法)需要計算高維稀疏矩陣帶來的高計算複雜度問題,利用雙向量子空間上的夾角餘弦係數度量替代整個向量空間上的歐式距離。同時,引入了半監督學習策略來進一步提高學習效率。實驗結果證明了算法的有效性、揭示了知名學術期刊的關聯網路並推動了生物醫學文獻聚類分析的發展。 2. 提出了生物信息學者社會網路模型,運用複雜網路和關聯矩陣分析生物信息國際會議執行委員關係,分析出了網路中的三個關鍵會議節點、五個關鍵委員節點和一個研究社團,同時討論了該學者網路的無標度特性和小世界性。該模型的提出拓寬了社交網路的研究領域,分析了研究社團和關鍵委員節點在整個網路中的貢獻以及各會議之間的共性和聯繫。 3. 提出了基於類分布非均衡數據支持向量反向傳播(SV-BP)神經網路分類算法,並將新算法套用到關於活性污泥質量的文本格式數據分類中。利用聚類算法對活性污泥質量分類提供了決策支持。 4. 將半監督學習與增量學習、減量學習相結合,建立了增/減量式學習策略,提出了增/減量式半監督吸引子傳播模型和算法;該方法充分利用少量先驗知識,建立標記函式,通過增/減量方式選擇與標記樣本最接近的未標記數據進行標記,有效地解決了半監督學習中學習偏差問題和穩定性/可塑性兩難問題,為更加有效地利用僅有的少量標記樣本對大量未標記樣本進行分析提供了新手段和方法。 5. 深化了吸引子傳播和半監督學習在分類方面的套用研究。利用相關成分分析結合正約束得到白化矩陣,定義了特徵測度概念,該測度能夠同時衡量單個波段的可分性和波段之間的相關性,構建了基於特徵測度的吸引子傳播模型與算法;該算法能夠有效地選擇出代表特徵,減少冗餘,從而提高了算法性能。 上述工作深化了吸引子傳播在文本挖掘領域的研究,為解決海量文本向量空間模型帶來的維數災難現象提供了新的半監督模型和聚類算法。同時,將新模型和算法有效的套用到不同類型和不同領域的文本類型數據中,並對多種半監督學習策略和多種聚類算法進行系統地交叉比較,分析影響半監督聚類的關鍵因素,最終給出了不同套用領域中的最佳模型和算法。項目成果匯集了新提出的模型和算法,搭建了半監督文本挖掘平台並獲得了軟體著作權,申報了專利。獲得教育部自然科學獎二等獎1項,中國商業聯合會科學技術一等獎和二等獎各1項。

相關詞條

熱門詞條

聯絡我們