符號數據的聚類有效性分析與最佳化算法研究

符號數據的聚類有效性分析與最佳化算法研究

《符號數據的聚類有效性分析與最佳化算法研究》是依託山西大學,由白亮擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:符號數據的聚類有效性分析與最佳化算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:白亮
  • 依託單位:山西大學
項目摘要,結題摘要,

項目摘要

由於在人們的日常生活中存在著大量的符號數據(一種非數值型數據),如生物信息數據、Web數據和客戶交易數據等,如何針對它們進行聚類分析已成為數據挖掘的一個重要研究問題,並引起了人們廣泛關注。本項目將以符號數據作為研究對象,運用統計分析和最佳化方法,系統地對符號數據的聚類有效性及其相關的最佳化算法進行研究。主要研究內容包括:(1)符號數據的聚類準則選擇和聚類算法互學習問題;(2)符號數據的聚類結果差異性度量和相關的最佳化問題;(3)在不同特徵的符號數據集上對聚類算法表現的客觀評價問題;(4)結合一兩個具有明確生物意義的真實數據開展實驗分析。本項目的研究成果將進一步豐富符號數據的聚類分析研究, 並為相關領域的數據挖掘與知識發現提供新的理論依據和技術支持。

結題摘要

在現實世界中存在著大量的符號數據。由於符號數據缺乏固有的幾何特性,現有大量的數值數據聚類算法不能簡單地將套用於符號數據。如何為符號數據建立適合其自身的聚類模型受到越來越多的學者關注。本項目針對符號數據,就其聚類有效性及其聚類最佳化算法進行了深入地研究,主要的研究內容包括:(1)符號數據的聚類準則選擇和聚類算法互學習問題;(2)符號數據的聚類結果差異性度量和相關的最佳化問題;(3)在不同符號數據集上對聚類算法表現的客觀評價問題;(4)結合真實數據開展實證分析。獲得的重要研究成果包括:(1)構建了一個廣泛意義的聚類有效性函式,基於它揭示了現有聚類有效性函式之間的內在關係,分析了它們的有效性,該研究成果為符號數據的聚類準則選擇和聚類算法互學習提供了理論基礎。(2)以符號數據流為研究背景,研究了如何度量不同數據子集的聚類結果差異性。並基於新的度量,構建了適合數據流的最佳化模型和求解算法,克服了現有聚類算法沒有充分考慮新數據的自身類結構等缺點,提高了概念漂移檢測結果的可靠性。(3)研究了現有聚類有效性函式在最佳化模型中的求解空間,給出了它們在給定數據集上的取值範圍估計方法,從而為客觀評價聚類算法對數據的適應性提供了理論支持。(4)課題組在大量的真實數據上對相關研究成果進行了實驗分析,並將符號聚類思想套用於網路數據(包括生物信息網路和社交網路等)的社區發現中。該項目的相關研究成果發表在IEEE Tans. Knowledge and Data Engineering, Data Mining and Knowledge Discovery和Information Sciences等國際重要學術期刊。這些成果進一步豐富符號數據的聚類分析研究, 並為其在相關領域的套用提供新的理論依據和技術支持。

相關詞條

熱門詞條

聯絡我們