《高維稀疏數據聚類研究》是依託北京科技大學,由武森擔任項目負責人的面上項目。
基本介紹
- 中文名:高維稀疏數據聚類研究
- 依託單位:北京科技大學
- 項目負責人:武森
- 項目類別:面上項目
- 負責人職稱:教授
- 批准號:70771007
- 70771007:G01
- 研究期限:2008-01-01 至 2010-12-31
- 支持經費:16(萬元)
《高維稀疏數據聚類研究》是依託北京科技大學,由武森擔任項目負責人的面上項目。
《高維稀疏數據聚類研究》是依託北京科技大學,由武森擔任項目負責人的面上項目。項目摘要高維數據處理能力是聚類研究的難點之一。本項目擬針對高維數據普遍具有稀疏特徵,提出特定的高維數據表示、數據精簡和差異度計算方法,並進一步給...
因為傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。目前一般使用兩種...
《基於高維特徵和稀疏子空間聚類的圖像分割方法研究》是依託西安電子科技大學,由王衛衛擔任項目負責人的面上項目。中文摘要 圖像分割是圖像理解與識別的基礎,是計算機視覺亟需解決的問題。傳統圖像分割方法使用個別圖像特徵,個別特徵不能反映自然界的豐富多樣性,分割精度有限。本項目將圖像分割看成圖像高維特徵的聚類問題...
①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的...
高維度(high dimensionality):一個資料庫或者數據倉庫可能包含若干維或者屬性。許多聚類算法擅長處理低維的數據,可能只涉及兩到三維。人類的眼睛在最多三維的情況下能夠很好地判斷聚類的質量。在高維空間中聚類數據對象是非常有挑戰性的,特別是考慮到這樣的數據可能分布非常稀疏,而且高度偏斜。基於約束的聚類:現實...
稀疏聚類 針對稀疏數據的另一個研究方向就是對稀疏數據的聚類與降維。稀疏數據不同於一般數據,它的維度常常極其巨大,並且由於大量的缺失值的存在,使得數據信息極端不完整,常見的降維方法例如主成分、因子分析等無法在此上套用。針對這一情況,很多學者開始研究探索一些其他的方法來解決這一問題。謝寧新在他發表的文章...
《高維數據聚類的數學模型及在反垃圾郵件中的套用》是依託廈門大學,由姜青山擔任項目負責人的面上項目。項目摘要 研究高維數據的聚類問題是十分重要的前沿和熱點課題,其套用前景極其廣泛。本項目主要是通過構建高維數據聚類的具有一定通用性的數學模型,來研究和開發適用於海量高維數據聚類分析的有效方法和工具。我們主要...
本項目以聚類和分類問題作為切入點,建立了面向高維數據的稀疏非參核學習最佳化模型、提出了基於譜回歸的高效非線性維數約簡算法、面向高維數據的非線性數據嵌入譜聚類算法以及面向高維數據識別的核稀疏表示分類方法。對提出的這些方法進行了實驗驗證,與傳統方法相比,在標準高維數據集上的非參核性能明顯優於傳統方法,不僅...
《基於約束的高維數據聚類》是依託大連理工大學,由張憲超擔任項目負責人的面上項目。項目摘要 聚類是數據挖掘的基本內容,它幫助發現數據的自然結構,在很多領域起重要作用。近年來產生的大量高維數據給傳統聚類算法帶來被稱為維度災難的巨大挑戰,主要表現為:在高維數據中不同的簇對應於不同的子空間,發現子空間和發現...
《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。中文摘要 高維空間聚類是當前數據挖掘領域一個急待解決的關鍵問題,在海量數據的情況下,這個問題就更加突出。本項目重點研究高維空間數據動態劃分的新模式和新的聚類合併技術,試圖用基於數學理論維的方法解決海量高維...
現有的算法交易模型及其相應的交易策略制定問題由於受到數據的動態、多關聯、高維等特性的制約,一直沒有得到很好的解決。高維數據聚類的最新進展為解決上述問題提供了新的思路。基於高維數據聚類的算法交易策略是目前算法交易領域的一個研究熱點。本項目圍繞高維數據聚類的算法交易策略中的數據特徵降維、相似性度量、初始聚類...
《基於非顯式隱私保護的大規模高維數據聚類方法研究》是依託哈爾濱工業大學,由張曉峰擔任項目負責人的面上項目。項目摘要 隨著人們的隱私保護意識的提升,如何在實現隱私保護的前提下,對大規模高維度數據進行準確的聚類分析,已經成為數據挖掘和隱私保護領域中的重要前沿交叉課題。這個課題的關鍵研究難點是:如何從高維特徵...
本項目將重點研究:(1)基於稀疏性的回歸模型;(2)高維數據的本徵表達;(3)快速線上學習算法。項目的創新之處在於將新的數學理論與具體的實際問題相結合,並套用於面像識別、生物信息學等領域。本課題的研究將豐富套用數學與機器學習理論,並為實際問題提供新的解決途徑。結題摘要 本課題圍繞稀疏正則化方法及...
《高維數據聚類信息核保存與隱藏技術研究》是依託東南大學,由倪巍偉擔任項目負責人的青年科學基金項目。中文摘要 數據隱藏發布中聚類可用性的維持在高維及數據動態更新環境下尤為困難:(1)聚類對數據個體差異的依賴與隱藏操作弱化個體差異的主要思想存在截然矛盾;(2)維數災難導致常用的匿名與隨機化隱藏方法失效;(3)...
《複雜多視圖高維數據子空間聚類方法研究》是依託大連理工大學,由於紅擔任項目負責人的青年科學基金項目。項目摘要 多視圖子空間聚類是多視圖高維數據聚類的重要方法。現有的方法沒有深入分析不同視圖下數據實例可聚性的差異,並且沒有考慮數據視圖間是部分映射或無映射的以及數據規模龐大或增量變化的複雜多視圖高維數據。...
2.1 知識發現與數據挖掘/5 2.2 聚類分析/13 2.3 數據挖掘所面臨的挑戰/24 2.4 高維數據/27 2.5 維度約簡/31 2.6 高維數據聚類/38 2.7 本章小結/43 第3章 基於排序的高屬性維稀疏數據聚類方法/44 3.1 高維稀疏數據/44 3.2 高屬性維聚類問題描述/47 3.3 經典高屬性維稀疏數據聚類...
本項目擬在這兩個統計學基礎課題上開展深入研究,並有望取得突破性成果。具體我們將在帶有附加信息的高維高維稀疏數據的變數選擇方法上提出既能選擇與估計,同時又能進行統計檢驗的新方法;提出高維稀疏數據的聚類降維新理論和技術;提出超高維稀疏數據下的掃描的新理論和方法。這些新的高維複雜數據的分析方法可套用於CT...
1.2數據庫知識發現——KDD 1.2.1KDD的產生與發展 1.2.2KDD的一般機理和理論基礎 1.2.3KDD系統的基本框架 1.2.4KDD的主要任務 第2章聚類知識發現及其關鍵技術 2.1聚類問題的主要方法 2.2聚類問題的關鍵技術 2.2.1數據倉庫技術 2.2.2高維聚類技術 2.3高維聚類關鍵技術研究 2.3.1高維聚類的主要算法...
主要研究成果(1)用信息熵理論研究多種類型數據的信息融合,提出了兩種混合數據間相似度的度量方法,在一定程度上解決目前信息融合中的信息丟失問題;(2)探索用全信息熵理論建立高維數據聚類子空間搜尋模型,特別在分類型數據聚類問題,研究適應於子空間聚類子空間合併和子簇類合併機制,在理論上探討了高維數據子空間簇...
對高維時間過程型數據的分析一直是生物學、醫學用於研究某個自然過程(細胞分化、癌變細胞生長)的重要手段。時間過程型數據不僅反映了各個變數在某個時間區間的變化過程,往往還帶有類結構信息。本項目研究類結構隨時間變化的高維時間過程型數據的聚類分析以及變數選擇問題。通過融合聚類和變數選擇算法對數據在整個時間區間...
為了分析地理數據,我們提出了一種耦合屬性距離和地理距離的全新地理數據度量——本質度量距離。藉助這一新的度量,地理數據的分析與處理可化歸為通常數據的處理。我們從理論和套用上說明了這一新框架的合理性、有效性與可計算性。針對高維非結構化數據的聚類分析問題,提出了一種基於模型並結合使用非凸正則化的稀疏聚...
針對文本挖掘和信息檢索中的文本或文獻聚類與分類等問題,學術界基於VSM(向量空間模型)主要有兩方面的研究,一者是文獻表示模型的改進,二者是算法的改進。然而傳統的算法對高維稀疏的向量聚類存在不足,一些新的算法也不盡完美,更主要的是聚類算法的效果與數據本身的特徵以及信息提取和表示密切相關,特別是在信息有限...
本項目對目前統計稀疏學習方法中的幾個代表性問題及其在視覺任務中的套用進行研究,包括:稀疏無監督降維、稀疏高斯圖模型以及基於新范型的稀疏矩陣補充等,並提出相應的學習方法、計算模型及求解策略。其中稀疏無監督降維方法的研究能為高維數據的特徵提取和字典學習提供重要方法;稀疏高斯圖模型不僅能夠為數據稀疏建模提供...
在多個公開數據集上進行了試驗及評估,驗證了算法的有效性。(2)研究了數據降維與子空間聚類相結合的基於稀疏和低秩表示的子空間聚類模型,對模型的求解方法進行了探索研究,設計並實現了能夠處理新增加樣本的直推式子空間聚類算法。在多個公開數據集上進行了試驗及評估,驗證了算法的有效性。(3)將高維數據視為張量...
高維稀疏數據聚類研究(國家自然科學基金項目)獲獎情況 1999年獲評為北京科技大學優秀導師 2000年獲北京科技大學青年教師課堂教學評比一等獎 2000年獲北京科技大學首屆我愛我師——我心目中最優秀的老師稱號 出版圖書 代表性著作 《管理信息系統》 ——經濟管理出版社;《高維稀疏聚類知識發現》——冶金工業出版社 企業...
(1)高維稀疏數據聚類研究,國家自然科學基金項目,(2)高維混合數據聚類理論與套用研究,中央高校基本科研業務資金,(3)國家電子招標系統基礎數學模型及其關鍵技術研究 (4)農業節水新技術(產品)資料庫項目 (5)北宇公司信息化管理研究 (6)中國航空科工集團信息化技能與知識管理體系研究 (7)國際礦業公司...
2. 國家自然科學基金委員會,面上項目,62076109,高維稀疏數據下進化深度聚類方法研究,2021-01至2024-12,59萬元,主持;3. 國家自然科學基金委員會,青年項目,61603087,基於代理模型和層次進化算法的 多目標雙 層規劃問題研究,2017-01至2019-12,21萬元,主持;4. 吉林省科技廳青年基金項目,20190103006JH...
[1]祝琴,陳華.具有稀疏特徵的對象—屬性子空間邊緣重疊區域歸屬算法,計算機套用研究,(CSCD)[2].祝琴,高學東,武森,陳華.高維稀疏數據對象—屬性分割.數學的認識與實踐.2011,中文核心 [3]QinZhu,guopingTu,XuedongGao,SenWu,HuaChen.Enhanced CABOSFVclusteringAlgorithmBasedonAdaptivethreshold.2011IEEE ...
當數據集規模較小時,近鄰傳播算法與傳統算法的差別不大,優勢不明顯;但是當數據集規模增大時,或者說,聚類算法的特徵矩陣變得高維稀疏時,近鄰傳播算法性能明顯優於傳統算法。目前該算法已經成功套用於人臉識別,基因發現、網路文本挖掘、圖像分割以及最優航線設計等領域。優點 不需要事先指定聚類數目,在數據集的元素...