多源數據挖掘的關鍵技術研究

多源數據挖掘的關鍵技術研究

《多源數據挖掘的關鍵技術研究》是依託浙江師範大學,由劉華文擔任項目負責人的面上項目。

基本介紹

  • 中文名:多源數據挖掘的關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:劉華文
  • 依託單位:浙江師範大學
項目摘要,結題摘要,

項目摘要

大規模數據在現實許多領域中已得到廣泛套用,並取得了令人矚目的成就。現有大規模數據的研究工作主要體現在數據存儲、檢索和管理方面,而分析和挖掘等相關技術尚未成熟,有待深入研究。本項目以多源數據為研究對象,從多源數據結構及特點出發,圍繞多源數據挖掘新機制這個主題展開研究,重點建立多源數據的異常檢測、維數約簡、形式化表示和信息獲取等新理論和新方法,通過採用近鄰、局部權重、典型相關分析、低秩分解和正則化等統計學習技術,闡明統計學習對模型構建的優勢,探討數據質量對多源數據挖掘的影響,明確影響模型構建的相關因素,揭示多源數據挖掘的理論及關鍵技術特點,建立高效率和高性能的多源數據挖掘模型,給出多源數據的套用案例,形成多源數據挖掘的完整理論體系。本項目的研究對於提高多源數據質量、完善挖掘技術的理論研究和實際套用具有重要意義,可為大數據的真實落地提供有益的探索和切實可行的解決方案。

結題摘要

多源數據是大規模數據的表現方式之一。數據質量的提升對於大規模數據的挖掘起著關鍵作用,也是大數據分析的熱點研究方向。本項目以多源數據為研究對象,從多源數據結構及特點出發,圍繞多源數據的質量提高這個主題展開研究,重點建立多源數據的異常檢測和維數約簡等新理論和新方法,通過採用近鄰、矩陣分解和稀疏學習等統計學習技術,闡明統計學習對模型構建的優勢,探討數據質量對多源數據挖掘的影響,建立高效率和高性能的異常檢測模型。項目具體研究內容包括:針對數據規模大的問題,採用矩陣分解、譜聚類和隨機遊走等技術,提出哈希學習方法,提升數據檢索效率;針對數據質量提高問題,通過局部投影策略、稀疏學習和隨機森林技術,結合信息熵和領域稀疏度概念,提出了適用於大規模數據的異常檢測方法;根據多源數據中數據相關的特點,利用多變數分析技術,度量多源數據的相關性,配合正則化因子,實現維數約簡目的,最終構建可解釋性、高性能的多源數據分類學習模型。

相關詞條

熱門詞條

聯絡我們