《高維數據聚類的數學模型及在反垃圾郵件中的套用》是依託廈門大學,由姜青山擔任項目負責人的面上項目。
基本介紹
- 中文名:高維數據聚類的數學模型及在反垃圾郵件中的套用
- 項目類別:面上項目
- 項目負責人:姜青山
- 依託單位:廈門大學
- 負責人職稱:教授
- 申請代碼:A0603
- 研究期限:2008-01-01 至 2010-12-31
- 批准號:10771176
- 支持經費:26(萬元)
《高維數據聚類的數學模型及在反垃圾郵件中的套用》是依託廈門大學,由姜青山擔任項目負責人的面上項目。
《高維數據聚類的數學模型及在反垃圾郵件中的套用》是依託廈門大學,由姜青山擔任項目負責人的面上項目。項目摘要研究高維數據的聚類問題是十分重要的前沿和熱點課題,其套用前景極其廣泛。本項目主要是通過構建高維數據聚類的具有一定通...
《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。中文摘要 高維空間聚類是當前數據挖掘領域一個急待解決的關鍵問題,在海量數據的情況下,這個問題就更加突出。本項目重點研究高維空間數據動態劃分的新模式和新的聚類合併技術,試圖用基於數學理論維的方法解決海量高維...
《高維稀疏數據聚類研究》是依託北京科技大學,由武森擔任項目負責人的面上項目。項目摘要 高維數據處理能力是聚類研究的難點之一。本項目擬針對高維數據普遍具有稀疏特徵,提出特定的高維數據表示、數據精簡和差異度計算方法,並進一步給出高效的不同數據類型的聚類算法。主要研究內容包括:.(1)高維稀疏數據的特徵表示和...
高維混合型數據聚類問題的研究是近年來數據挖掘研究中提出的新問題,因數據的複雜性使得在全空間上聚類效果不理想。本項目瞄準這一焦點問題,通過研究多種類型數據的信息融合,建立基於遺傳算法構建高維混合型數據的子空間聚類模型,開發適用於海量高維數據聚類分析的有效方法,以及在銀行客戶信用評價中的套用研究。主要研究...
彌補現有研究數據隱藏後難以滿足深層套用需求,及對數據集靜態、常規維度限制與現實世界複雜數據環境脫節的不足。結題摘要 數據隱藏發布中聚類可用性的維持在高維及數據動態更新環境下尤為困難:(1) 聚類對數據個體差異的依賴與隱藏操作弱化個體差異的主要思想存在截然矛盾;(2) “維數災難導致常用的匿名與隨機化隱藏方法...
《基於約束的高維數據聚類》是依託大連理工大學,由張憲超擔任項目負責人的面上項目。項目摘要 聚類是數據挖掘的基本內容,它幫助發現數據的自然結構,在很多領域起重要作用。近年來產生的大量高維數據給傳統聚類算法帶來被稱為維度災難的巨大挑戰,主要表現為:在高維數據中不同的簇對應於不同的子空間,發現子空間和發現...
本項目具有重要的理論和套用價值。結題摘要 本項目研究類結構隨時間變化的高維時間過程型數據的聚類分析以及變數選擇問題。通過融合聚類和變數選擇算法對數據在整個時間區間內類結構的變化情況以及每個類中具有相似回響模式的特徵變數進行全面的評估。項目主要利用隱樹層次混合效應模型刻畫含有特殊類結構的時間過程型數據,在...
《基於高維數據聚類的算法交易策略若干關鍵問題研究》是依託武漢大學,由王峰擔任項目負責人的青年科學基金項目。項目摘要 算法交易是根據當前的市場信息、數據等分析推斷市場走勢,從而制定交易策略的一種新興交易手段。現有的算法交易模型及其相應的交易策略制定問題由於受到數據的動態、多關聯、高維等特性的制約,一直沒有...
. 本課題的研究可以提高對多視圖高維數據的處理能力,為數據挖掘、模式識別等套用提供有效方法。結題摘要 多視圖子空間聚類是多視圖高維數據聚類的重要方法。本項目深入研究複雜多視圖高維數據的聚類方法。(1)提出了一種加權的多視圖k均值聚類策略,即在k均值聚類方法中引入了L2,1範數,從而減弱異常數據點對k-均...
8.1聚類結果表示方式概述 8.1.1數據可視化 8.1.2表達式法 8.2基於粗糙集理論的知識表示 8.2.1粗糙集基礎理論 8.2.2屬性空間上的rough集理論 8.3基於粗糙集理論的聚類結果表達 8.3.1一般聚類知識的表達 8.3.2高維二元映射聚類結果的粗糙集表示 8.4小結 第9章聚類知識發現數據建模及套用 9.1數據模型...
(2)基於維度間相似度和偏離度計算的隱私維度保護方法,用於解決自適應調整隱私維度集的保護強度的問題;(3)基於自適應非顯式隱私維度保護的新型高斯混合聚類算法,用於解決單源高維數據的最優聚類模型學習問題;(4)基於局部模型參數融合的全局聚類算法,用於解決大規模、多源高維數據的最優聚類模型學習問題。
信息檢索、腦機接口等領域常需要對高維數據進行聚類或分類分析,但實際套用中對高維數據的分析常存在較大困難。這主要是因為,一方面,無監督聚類分析難以提供用戶期望的數據分組,極大地影響對數據的理解。另一方面,由於高維數據存在“維數詛咒”問題,通常會造成分類模型出現過學習現象和計算複雜度偏高。目前研究者正主要...
支持向量機套用於垃圾郵件識別,人臉識別等多種分類問題。隨機森林算法 控制數據樹生成的方式有多種,根據前人的經驗,大多數時候更傾向選擇分裂屬性和剪枝,但這並不能解決所有問題,偶爾會遇到噪聲或分裂屬性過多的問題。基於這種情況,總結每次的結果可以得到袋外數據的估計誤差,將它和測試樣本的估計誤差相結合可以...
6.5 在複雜數據上套用核函式 105 6.5.1 利用核函式將數據映射到高維空間 106 6.5.2 徑向基核函式 106 6.5.3 在測試中使用核函式 108 6.6 示例:手寫識別問題回顧 111 6.7 本章小結 113 第7章 利用AdaBoost元算法提高分類 性能 115 7.1 基於數據集多重抽樣的分類器 115 ...