《基於近似空間概化的高性能海量複雜時空聚類技術研究》是依託武漢大學,由胡春春擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於近似空間概化的高性能海量複雜時空聚類技術研究
- 項目類別:青年科學基金項目
- 項目負責人:胡春春
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
海量複雜的時空數據獲取及套用對數據的高效訪問及高性能的分析計算提出了新的挑戰。如何高效地從中提取有效的時空模式和知識發現已經成為空間數據挖掘中一個重要的研究內容。本項目擬基於MapReduce框架研究高性能的時空聚類技術,以城市內最為頻繁的交通流信息和車輛移動軌跡為研究對象,建立起高性能海量複雜時空聚類相關技術與方法的基本思路和框架,解決如何提高聚類質量、算法的有效性和計算性能,以及如何有效地提取有意義的時空模式並加以分析處理等難點和關鍵問題。設計的算法通過同傳統的聚類方法在有效性和計算效率方面加以分析比較並最佳化。具體研究內容包括:(1)建立快速有效的海量複雜時空數據概化機制;(2)高性能的概化粗糙模糊聚類算法及實例驗證;(3)時空聚類的有效性評價及模式分析。本項目的研究成果可拓展套用於城市公共安全應急管理平台中。
結題摘要
海量複雜的時空數據獲取增加了數據管理和計算分析的複雜性, 通過時空數據聚類技術能夠提取地理現象中潛在的時空模式,並能套用到如城市交通、環境與氣象監測等領域。如何高效地從中提取有效的時空模式和知識發現是空間數據挖掘中一個重要的研究內容。本項目主要的研究內容包括:(1)研究了海量複雜時空數據集的概化機制,給出了基於數據壓縮和粗糙集理論的概化策略,實驗結果表明,當數據概化達到56.5%時,仍然可以得到最優的聚類結果; (2)高性能的複雜時空數據聚類算法設計與最佳化,採用了MapReduce的並行框架模型來研究聚類算法,實驗結果表明當數據規模達到20%時,其單位數據量所需的時間急劇下降,並行計算的優勢明顯能夠反映出來。在算法最佳化方面,考慮到多個最佳化準則對於聚類分析的重要性,提出了基於多目標混合函式的軌跡模糊聚類最佳化方法;(3)算法有效性分析和時空模式分析,在聚類有效性指標的基礎上改進了對空間距離相似性測度,通過實驗結果來驗證算法的有效性,並通過核密度估計的時空模式分析方法的研究,識別可能的交通熱點。本項目通過建立有效的時空數據概化機制,既能夠保留數據本身的主要特徵,又能減少計算的複雜度,基於分散式並行框架設計的高性能時空聚類方法,能夠確保算法的計算性能,通過對有效性評價指標的研究來驗證算法和聚類結果的有效性,結合模式分析方法提取有意義的時空模式,能很好地套用於智慧型交通、公共安全應急管理等領域中。