《雙重空間聚類及其自組織遺傳最佳化算法研究》是依託武漢大學,由焦利民擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:雙重空間聚類及其自組織遺傳最佳化算法研究
- 項目類別:青年科學基金項目
- 項目負責人:焦利民
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
面向海量、高維、多專題空間數據的探測性數據分析是空間信息技術發展及其套用拓展的迫切需求,也是空間數據挖掘的難點和重要方向。雙重空間聚類面向帶有多類型非空間屬性的高維專題空間數據,要求聚類結果在空間域上連續、屬性域上內聚。本項目將首次系統地研究雙重空間聚類的內涵、形式化定義、聚類統計量、聚類準則及其判定方法等基本理論問題。研究雙重空間聚類的求解策略並提出空間解構-簇合併的求解框架。建立自組織遺傳最佳化的雙重空間聚類算法,包括自組織空間解構(SSD)和遺傳最佳化簇合併(GM)兩個子過程。本項目也將探討雙重空間聚類中多類型屬性距離計算、空間例外檢測等問題以彌補現有相關研究的疏漏。本項目還將開發一個算法實驗平台,並基於實際的大型專題空間資料庫、結合領域套用任務來進行實證研究。本項目的研究將基本建立雙重空間聚類的理論、方法和算法基礎,有助於促進高維空間數據探測性數據挖掘技術的發展及其智慧型化。
結題摘要
高維空間數據聚類旨在發現高維空間數據的聚集特徵或屬性的空間分布規律,是探測性數據分析的重要任務和難點。本項目研究了顧及空間和屬性的雙重聚類問題,系統地研究了“雙重空間聚類”的內涵、形式化定義、聚類統計量、聚類準則及其判定方法等基本理論問題。雙重空間聚類要求聚類結果空間域上連續、屬性域上內聚,能夠表現屬性或屬性組的複雜空間分布形態。研究了高維空間數據的預處理,提出了基於神經網路空間趨勢分析的異常點檢測方法。研究了複合距離聚類統計量,提出了聚類圖譜和複合距離中屬性權重確定的定量分析方法。提出了“空間解構-簇合併”的兩步法求解策略,首先將空間對象分割為屬性內聚的均質簇,然後再按照空間連續屬性內聚的準則進行簇合併,構建了基本的顧及空間和屬性的自組織空間聚類算法。建立了自組織遺傳最佳化的雙重空間聚類算法,包括自組織空間解構(SSD)和遺傳最佳化簇合併(GM)兩個子過程。項目基於實際的專題空間資料庫、結合領域套用任務進行了算法實證研究。本項目的研究基本建立了雙重空間聚類的理論、方法和算法基礎,有助於促進高維空間數據探測性數據挖掘技術的發展。 項目組成員按申請書和計畫任務書要求完成了項目研究任務,並取得了相關研究成果,實現了項目預期研究目標。在本項目資助下,發表論文10篇,其中SCI論文6篇,EI論文2篇,核心期刊論文2篇。參加國際學術會議並發表會議論文報告2次,赴美參與國際合作交流一次。參與本項目的四位博士研究生,完成博士學位論文,順利畢業。