《多粒度視角下大規模數據聚類算法研究》是依託山西大學,由趙興旺擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:多粒度視角下大規模數據聚類算法研究
- 項目類別:青年科學基金項目
- 項目負責人:趙興旺
- 依託單位:山西大學
《多粒度視角下大規模數據聚類算法研究》是依託山西大學,由趙興旺擔任項目負責人的青年科學基金項目。
《多粒度視角下大規模數據聚類算法研究》是依託山西大學,由趙興旺擔任項目負責人的青年科學基金項目。項目摘要聚類分析作為大數據信息粒化及信息壓縮的一個基本工具,開展大數據聚類分析新理論與新方法具有重要的意義。本項目針對大數據...
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法。聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚...
聚類分析稱為無監督學習 (Unsuper-vised Study),主要體現在聚類學習的數據對象沒有類別標記,需要由聚類學習算法自動計算 。聚類類型 經過持續了半個多世紀的深入研究聚類算法,聚類技術也已經成為最常用的數據分析技術之一。其各種算法的...
(3)在多粒度數據分析與挖掘方面,提出了多核、多視角、多標記的高效分類學習算法;發展了基於信息熵、標籤信任度的聚類集成高效算法。(4)在網路大數據挖掘方面,提出了面向拓撲與多源信息環境的鏈路預測方法和基於社區專家的推薦算法,...
本項目的研究面向大數據環境下的空間聚類方法展開,內容包括:(1)利用並行計算框架MapReduce,首次將現有聚類算法移植到分散式計算平台,以滿足空間大數據的科學計算需求,也為更大規模、更高維度的空間數據及時空數據聚類研究提供了基礎;(2)...
《面向大規模複雜數據的主曲線多粒度建模與分析》是依託同濟大學,由張紅雲擔任項目負責人的面上項目。中文摘要 主曲線學習是維數約簡、數據可視化、模式識別等領域對數據進行分析的重要工具之一。目前大量主曲線算法被相繼提出,但現有算法...
(2)研究特徵-結構協同的層次聚類,有效利用多種特徵和多種結構並存的複雜多視角信息;(3)研究多視角協同維度約減方法及多視角協同採樣方法,對原始數據進行維度和數量上的約減以提高算法伸縮性。
發展粒計算理論;基於2個論域的多層次粗糙集模型;基於覆蓋粗糙集模型多粒度表示;基於粗糙子空間的分類數據聚類融合算法;基於變精度粗糙集模型的知識約簡算法,文本多標籤分類和基於二維顏色無關的判別分析的人臉識別算法等研究。
《面向多源大數據的魯棒聚類模型與算法研究》是依託山西大學,由杜亮擔任項目負責人的青年科學基金項目。項目摘要 多源大數據的聚類分析是大數據研究面臨的重要問題之一。由於數據規模大來源廣,多源大數據聚類不得不面對數據中廣泛存在複雜噪聲。
AP算法的目標就是尋找最優類代表點集合,使得誤差函式最小。即 算法首先將數據集的所有N個樣本點都視為候選的聚類中心,為每個樣本點建立與其它樣本點的吸引程度信息,即任意2個樣本點和之間的相似度。這種相似性可以根據所研究問題而...
動態聚類既可以作為一個單獨的聚類結果,也可以作為其他算法的一個預處理步驟。K-means算法是一種經典的聚類算法,速度快、消耗資源小,但是算法對初始聚類中心點敏感,容易陷入局部最小值。《粒度計算在數據挖掘中的套用研究》將基於模糊...
主要研究結果如下:(1)在混合數據的粒度的代數結構與聚類最優粒度選擇方面,通過定義模糊粒的四種運算,證明了混合數據的粒度空間可被理解為一個有補格結構;以熵為主要工具,設計了面向混合數據聚類的最優粒度選擇算法。(2)在信息...
本項目針對客戶關係管理中的動態客戶細分這一實際套用背景,將領域知識引入知識發現過程中,建立了多種演化聚類模型,並根據粒度計算的分而治之思想,給出了模型的求解算法及參數的選取與估計方法。主要研究成果包括:(1)針對動態數據挖掘...
(3)基於自適應非顯式隱私維度保護的新型高斯混合聚類算法,用於解決單源高維數據的最優聚類模型學習問題;(4)基於局部模型參數融合的全局聚類算法,用於解決大規模、多源高維數據的最優聚類模型學習問題。
最終本項目高維數據聚類、不確定數據聚類、多視角聚類和多任務聚類等方面取得了大量創新成果。主要創新成果包括: (1)提出基於約束的集成高維數據聚類算法;(2)基於約束的高維不確定數據子空間聚類算法;(3)提出新的基於密度的不確定...
《面向地理標籤數據的高效聚類算法研究》是依託同濟大學,由趙欽佩擔任項目負責人的青年科學基金項目。中文摘要 隨著GPS設備和通訊技術的發展,日常生活中出現了大量的地理標籤數據。聚類分析是用以挖掘這類數據中所包含信息的一個有用的工具...
為此,本項目擬從刻畫人類粒化認知機理出發,基於粒計算,協同區間分析和模糊理論,研究(1)基於超盒表示的多元時序數據多粒度信息粒化,(2)多元時序數據的粒化語義描述和(3)多元時序數據語義粒模型的構建,並將其套用於金融數據來驗證其...
作為機器學習領域的新興研究熱點,多視圖聚類和半監督聚類集成技術受到越來越多的研究人員關注。尤其面對日益增長的大數據套用,數據日趨複雜且呈現多視圖的特性,現有的聚類算法無法完全適應這一挑戰。本項目擬對多視圖半監督聚類集成的關鍵...
本課題旨在研究多標記數據粒計算理論與算法。主要內容包括:(1)數據的極小表示拓撲結構學習;(2)不確定性度量與屬性約簡算法;(3)數據的覆蓋聚類粒化;(4)多標記數據分類優先性;(5)數據的概念結構及其可視化。系統地發展多...
主要內容包括:(1)超大規模數據隨機選取與抽樣數據聚類穩定性研究;(2)多群體協同智慧型聚(簇)類中心研究;(3)相似度度量方法研究;(4)多群體協同智慧型進化策略研究。通過理論改進與創新,實現對構建高效聚類算法關鍵技術的有效解決...
在此基礎上,套用基數排序、Hash表等技術,建立多粒度空間的啟發式資訊理論約簡算法,構建粒空間的增量式代數約簡算法,以提高計算效率。針對混合型數據,研究相對鄰域關係和廣義鄰域關係,構建相應的鄰域粗糙集擴展模型,提出其特徵選擇算法;...