《大數據環境下基於群體協同智慧型聚類的關鍵技術研究》是依託長春工業大學,由韓旭明擔任項目負責人的面上項目。
基本介紹
- 中文名:大數據環境下基於群體協同智慧型聚類的關鍵技術研究
- 項目類別:面上項目
- 項目負責人:韓旭明
- 依託單位:長春工業大學
項目摘要,結題摘要,
項目摘要
綜合考慮大數據環境下海量數據的分析和處理需求,從理論和實驗驗證兩方面進行深入研究。以影響聚類性能的關鍵因素:聚(簇)類中心、距離度量方法、相似度運算元、聚類時間複雜度等作為研究重點,並結合近年不斷湧現的新型群體智慧型算法,對其進行理論創新和改進。主要內容包括:(1)超大規模數據隨機選取與抽樣數據聚類穩定性研究;(2)多群體協同智慧型聚(簇)類中心研究;(3)相似度度量方法研究;(4)多群體協同智慧型進化策略研究。通過理論改進與創新,實現對構建高效聚類算法關鍵技術的有效解決方案;(5)在此基礎上,提出階段群體協同智慧型聚類算法。通過群體協同智慧型算法快速搜尋,確定和初始化聚(簇)類中心;通過多群體協同智慧型進化策略,實現高效的簇內數據分散式聚類;(6)最終形成一個系統的、大數據環境下多群體協同智慧型聚類模型。豐富與發展基於海量數據的數據挖掘理論與算法,對智慧型理論研究及其在數據挖掘領域聚類研究具有重要意義。
結題摘要
群體協同智慧型算法模擬自然界各種生物的群體行為,利用群體個體之間的共同協助和信息交換實現尋優目的。聚類作為數據挖掘領域中的核心技術之一,由於算法自身複雜度的原因,存在著收斂速度慢、效率低等弊端。利用群體協同智慧型算法與聚類方法相融合,使數據間的內在特徵通過“機率分布、導向趨勢”的方式聚類,實現對具有相同或相似屬性的數據進行深度挖掘,獲取有價值知識,是大數據時代數據挖掘的重要手段和方法。大數據環境下影響聚類性能的關鍵因素主要有聚(簇) 類中心、相似度運算元等因素。本項目執行期間,以聚(簇) 類中心、相似度運算元、聚類時間複雜度等作為研究重點,針對群體協同智慧型算法以及聚類算法,進行理論改進研究與套用研究。提出一系列改進的群智慧型最佳化算法、改進的聚類算法,並將最佳化後群體智慧型算法套用於聚類、大數據聚類,有效提升聚類效果與精度。在地震數據、圖像分割、複雜函式極值搜尋、金融數據分析等領域,進行了仿真模擬與對比分析研究,都取得較好效果,具有很好套用價值。在群體智慧型算法方面,提出和引入趨勢搜尋機制、協同進化機制、知識記憶等策略,提出基於趨勢搜尋和協同進化的果蠅最佳化算法,基於知識記憶的果蠅最佳化算法等,基於柯西變異的果蠅最佳化等算法,大幅提高了算法的收斂速度和聚類效率。將引力理論、密度峰值聚類等內容引入近鄰傳播聚類算法,用於處理複雜結構數據時聚類結果不一致問題,提出基於引力理論的近鄰傳播聚類算法、基於密度峰值的半監督近鄰傳播聚類算法、基於結構相似性的自適應半監督近鄰傳播聚類等算法。引入格線劃分的思想,將大數據集劃分為小數據集,通過結構相似度矩陣來計算聚類中心的距離,在此基礎上實現數據分割、初始聚類和全局聚類,進而提出基於大規模數據集的近鄰傳播聚類算法。將群體協同智慧型算法與密度峰值聚類算法相結合,提出基於知識學習的果蠅密度峰值聚類算法、布穀鳥最佳化的密度峰值快速搜尋聚類算法、改進果蠅最佳化的密度峰值聚類算法。通過將半監督思想與群體智慧型最佳化算法相結合,提出基於半監督分層最佳化的近鄰傳播算法,基於穩定閾值的吸引子傳播聚類算法等,並構造了基於趨勢搜尋和協同進化的近鄰傳播聚類模型;通過改進傳統密度聚類算法需要人工設定截斷距離和聚類中心的缺點,提出基於知識學習的果蠅密度峰值聚類算法,布穀鳥最佳化的密度峰值快速搜尋聚類算法,改進果蠅最佳化的密度峰值聚類等算法。