《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。
基本介紹
- 中文名:高維空間海量數據快速聚類算法關鍵技術的研究
- 項目類別:面上項目
- 項目負責人:沈鈞毅
- 依託單位:西安交通大學
- 批准號:60673087
- 申請代碼:F0201
- 負責人職稱:教授
- 研究期限:2007-01-01 至 2009-12-31
- 支持經費:27(萬元)
《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。
《高維空間海量數據快速聚類算法關鍵技術的研究》是依託西安交通大學,由沈鈞毅擔任項目負責人的面上項目。中文摘要高維空間聚類是當前數據挖掘領域一個急待解決的關鍵問題,在海量數據的情況下,這個問題就更加突出。本項目重點研究高維...
基於哈希方法的移動圖像檢索、多種視覺特徵的高效融合檢索機制、輕量級的移動視覺圖像檢索方案等;在分散式環境下的海量數據的處理方面,項目提出了基於MapReduce的k-means++聚類算法、海量數據的快速近鄰查詢算法、並行可擴展的Skyline點查詢算法、基於MapReduce的協同過濾推薦、海量高維數據的分散式哈希機制等。
子空間聚類是聚類分析在數據挖掘領域中的關鍵技術之一。高維數據聚類是聚類分析技術的難點和重點,子空間聚類是實現高維數據集聚類的有效途徑,它是在高維數據空間中對傳統聚類算法的一種擴展,其思想是將搜尋局部化在相關維中進行。特性 根據算法思想,傳統的聚類算法可分以下五類 :① 劃分方法:將數據集隨機劃分為k...
①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的...
本項目針對符號數據、函式數據、成分數據等經濟管理領域中典型的高維複雜數據,就與之相關的兩大核心科學和技術問題:高維複雜數據的數學建模與知識推理、高維複雜數據的綜合利用與行為決策,開展深入系統的研究。具體內容:(1)符號數據的粒化、粒度空間結構、基於多粒度與動態粒度的問題求解模型與算法;(2)函式數據的...
數據挖掘利用了來自如下一些領域的思想:①來自統計學的抽樣、估計和假設檢驗;②人工智慧、模式識別和機器學習的搜尋算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最最佳化、進化計算、資訊理論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統...
(2)對各個子區域進行本地狀態估計計算(包括疊代計算),並對有交叉節點或共同邊界的不同子區域之間進行信息和數據的互動。(3)當不同子區域之間互動信息滿足疊代收斂要求後,輸出各個子區域的狀態估計計算結果,從而實現全網的狀態估計。基於圖論分析及分散式並行計算的大規模主動配電網三相分散式狀態估計算法大體技術...
探索高維索引結構線性存儲策略,設計基於並行模式高維索引算法,挖掘多核CPU和GPU內在並行計算能力,提升單機檢索效率;研究並行索引、高維聚類及分散式多級存儲技術,實現多並發條件下海量數據的高效檢索;研究聯合索引策略,通過對快速索引算法有效組合,構建強分類器,提升檢索的準確度,避免單一檢索算法存在的數據依賴性。
稀疏幾何結構學習可以有效刻畫數據的本質屬性及反映其聚類和分類信息。但是現有方法難以處理各種具有高維、海量特點的大數據及描述其分布規律。本項目擬對現有稀疏理論進行推廣,提出兩類廣義稀疏幾何結構學習新方法解決以上問題。針對傳統低秩學習方法在高維、海量數據上的計算效率問題,本項目一方面從數據的隱含空間低秩性出發...
4. 在大規模非線性聚類方面,主要研究了非線性聚類的方法,克服了普通核聚類算法的計算量大的缺點,將線性不可分的數據能更好地投影到高維空間中進行線性劃分,主要套用於圖像分類中。 該項目共發表學術論文53篇,其中IEEE Trans.刊物的論文7篇,Pattern Recognition 5篇,被SCI 檢索論文33篇,被EI 檢索論文49篇。
1.4.4 Apriori算法10 1.4.5 估計最大化11 1.4.6 PageRank算法11 1.4.7 AdaBoost12 1.4.8 k近鄰算法13 1.4.9 樸素貝葉斯14 1.4.10 分類回歸樹14 1.5 數據挖掘研究中的挑戰性問題14 1.5.1 針對高維數據和高速數據流的擴展15 1.5.2 挖掘序列數據和時間序列數據15 1.5.3 從複雜...
7.4.2 支撐技術 7.4.3 查詢算法 7.4.4 實驗分析 7.4.5 套用實例:移動雲計算環境下的書法字並行檢索 7.5 小結 參考文獻 第8章 分散式並行環境下多媒體大數據信息多重查詢最佳化 8.1 引言 8.2 分散式並行環境下的多重相似查詢最佳化 8.2.1 預備工作 8.2.2 動態查詢層次聚類 8.2.3 MDSQ算法 8.2....
對於高維向量空間中的大數據集,考慮現有結構中,可能存在的模式衝突、信息提取困難等問題,利用憶阻的切換特性,提出樹形組織形式;利用分層k-means聚類算法對模式進行分類,通過比較輸入模式與聚類過程中形成的質心,完成識別過程;引入分支限界算法改進這種搜尋技術,實現高性能認知功能。其深入研究將對憶阻系統的電路設計、...
本項目的研究內容主要包括:(1)聯合潛在因子模型及其最佳化算法的理論研究;(2)跨領域中基於聚類技術的用戶興趣模型構建研究;(3)跨領域中基於遷移學習的多源異構信息對象模型構建研究;(4)基於聯合潛在因子模型的跨領域信息推薦算法研究;(5)跨領域大數據信息推薦系統演示平台研究。結題摘要 隨著網際網路信息資源的...
2.2.2高維聚類技術 2.3高維聚類關鍵技術研究 2.3.1高維聚類的主要算法 2.3.2高維聚類算法的關鍵技術 第3章高維數據相似性的定義 3.1數據相似關係 3.1.1基於距離的相似性定義 3.1.2基於密度的相似性定義 3.1.3基於連線的相似性定義 3.2高維數據相似關係的定義 3.3二元數據相似性的定義 3.3.1屬性...
隨著移動網際網路和海量存儲技術的發展,大尺度信號處理理論的重要意義日益凸顯。子空間聚類模型將樣本所在子空間作為分類依據,完美地利用了數據內在的線性結構特徵,在機器學習和計算機視覺等領域具有重要套用。經典的子空間聚類算法在高維空間上求解若干最最佳化問題,計算複雜度巨大。本項目提出了壓縮子空間聚類——即用高斯隨機...
子空間聚類分析是數據挖掘領域中的關鍵技術之一,它是在高維數據空間中對傳統聚類算法的一種擴展,其思想是將搜尋局部化在相關維中進行。聚類分析是數據挖掘領域中的關鍵技術之一。高維數據聚類是聚類分析技術的難點和重點,子空間聚類是實現高維數據集聚類的有效途徑。根據算法思想,傳統的聚類算法可分以下五類 :① ...
還參加了多項橫向套用課題的開發和研製工作,主持的河南省科技攻關項目“IPv6對服務質量支持技術的研究與實現”,在2006年通過了省科委鑑定。正在
[4] 2007-2009:國家自然科學基金項目,主要參加者,“高維空間海量數據快速聚類算法關鍵技術的研究”[5] 2006-2008:總裝備部“921工程”子項目,主持人,“神舟7號任務環控生保分系統地面/飛船綜合測試系統” 和“神舟7號任務環控生保分系統決策支持系統”等項目。圓滿完成了神舟7號地面測試和飛控任務。[6] ...
指導學生作品“全國地質數據三維公眾服務平台”,中國測繪地理信息學會,2014年第六屆全國高校GIS技能大賽,特等獎 ,被評為最佳指導老師,2014 一種面向大規模矢量數據的集群負載均衡調度算法,國家地理信息系統工程技術研究中心,第五屆高等院校地理信息系統(GIS)論壇,優秀論文,2014 2013年全國高校GIS技能大賽,優秀指導老師...
基因組信息學,蛋白質空間結構模擬以及藥物設計構成了生物信息學的3個重要組成部分。從生物信息學研究的具體內容上看,生物信息學應包括這3個主要部分:⑴新算法和統計學方法研究;⑵各類數據的分析和解釋;⑶研製有效利用和管理數據新工具。生物信息學是一門利用計算機技術研究生物系統之規律的學科。生物信息學基本上...
根據礦產資源相關數據的海量性、高維性、時空性、異構性、模糊性、複雜行、多源性和多尺度性等,研究與開發數據挖據算法。以礦產資源開發過程中所取得的資源相關數據為基礎,利用數據挖掘技術為礦產資源綜合預測、評價、資源合理有效開發與利用提供理論與技術支持。礦山智慧型信息系統 研究與開發基於專家系統、數據挖掘技術和...
SVM主要思想是針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。而且SVM一個重要的優點是可以處理線性不可分的情況。用SVM實現分類,首先要從原始空間中抽取特徵,將原始空間中的樣本映射為高維特徵空間中的一個向量,以解決原始空間中線性不可分的問題。模糊聚類 模糊聚類通常...
本書主要以支持向量機理論為基礎,針對數據分布不平衡和海量數據的SVM建模問題、模型的線上學習和最佳化問題以及相關的算法研究,同時利用公開標準數據集和實際生產過程產生的實際數據進行了方法驗證。本書可供機械、信息、冶金、化工等領域的高年級本科生、研究生、工程技術人員和科技工作者閱讀參考。本書具有如下特點。(1...