大數據環境下的空間聚類方法研究

《大數據環境下的空間聚類方法研究》是依託北京師範大學,由付艷擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:大數據環境下的空間聚類方法研究
  • 依託單位:北京師範大學
  • 項目負責人:付艷
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

空間聚類是空間數據挖掘的一個重要分支,目的是從空間資料庫中發現隱藏的模式或識別出相似的地域。隨著空間信息處理技術的高速發展,空前規模的大數據勢必給聚類研究帶來新的挑戰。本項目的研究面向大數據環境下的空間聚類方法展開,內容包括:(1)利用並行計算框架MapReduce,首次將現有聚類算法移植到分散式計算平台,以滿足空間大數據的科學計算需求,也為更大規模、更高維度的空間數據及時空數據聚類研究提供了基礎;(2)首次利用LDA模型設計了線上的空間聚類算法,不僅滿足了大數據的並行計算需求,還解決了維度高、噪聲多等問題,為時空信息挖掘及趨勢預測等提供了研究基礎。在大數據環境下,先進的數據挖掘技術可以讓空間領域的科研工作者更輕鬆地探索數據的時空模式,不斷深化對地球系統複雜演變過程的理解。而本項目的研究內容對於更全面地發現空間數據屬性間存在的潛在聯繫和變化規律,具有重要的理論意義和套用前景。

結題摘要

本項目的工作是面向大數據環境下的空間聚類技術研究,研究內容包括:為探討傳統聚類方法如何被擴展、移植到並行計算框架中,基於分散式計算框架Hadoop搭建了空間大數據的存儲及聚類分析平台;深入研究了傳統聚類算法、特別是K-means算法基於分散式計算框架MapReduce的實際套用情況;並針對多核處理器、耦合CPU-GPU結構下的大數據挖掘進行了詳細分析;設計並實現了基於LDA主題模型的空間聚類算法,分析該算法在處理空間大數據時的優劣表現,進而基於深度學習及遷移學習方法,提出一種全新的基於Siamese網路的空間圖像聚類算法,以解決訓練數據匱乏、需人工提取特徵等問題帶來的挑戰,以期為空間大數據的挖掘分析提供一種新的思路和技術。

相關詞條

熱門詞條

聯絡我們