基於非獨立同分布數據的機器學習理論及其套用

基於非獨立同分布數據的機器學習理論及其套用

《基於非獨立同分布數據的機器學習理論及其套用》是依託湖北大學,由鄒斌擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於非獨立同分布數據的機器學習理論及其套用
  • 項目類別:面上項目
  • 項目負責人:鄒斌
  • 依託單位:湖北大學
項目摘要,結題摘要,

項目摘要

學習算法的泛化性能是機器學習理論研究的核心內容之一。到目前為止,機器學習中對學習算法泛化性能研究的幾乎所有的工作都是建立在獨立同分布數據這一假設下,而在市場預測、系統診斷、語音識別、生物信息學等機器學習實際套用中的數據並非是獨立同分布的。因此,研究非獨立同分布數據下學習算法的泛化性能具有重要的理論價值和套用前景。本項目在分析和綜合機器學習理論研究的最新成果的基礎上,通過理論研究和實驗驗證相結合,來研究非獨立同分布數據下代表性學習算法的一致性、收斂速率和泛化性能,旨在建立非獨立同分布數據下學習算法泛化性能的理論框架,建立控制非獨立同分布數據下學習算法的收斂速率和泛化性能的歸納原則,從而設計適合非獨立同分布數據的具有更好泛化性能的新算法,並將研究成果套用於生物信息學等研究領域中,為機器學習提供新的研究方法和新的研究思路。

結題摘要

經典的學習理論和算法都是建立在數據是獨立(同分布) 的假設下, 而無論在理論上,還是實際套用上,數據是獨立的假設都是非常強。基於此原因,在本項目中,我們研究了非獨立同分布數據下機器學習算法的推廣性能、收斂速率等機器學習理論,並對理論研究成果進行了套用研究。 主要研究內容包括:(1) 研究了混合序列下經驗風險最小化算法、正則化算法的推廣性能和收斂速率; (2) 因為混合序列的定義是概念性的,我們又研究了馬氏鏈數據下經驗風險最小化算法、支持向量機分類算法、正則化回歸等算法的推廣性能和收斂速率,建立了馬氏鏈數據下機器學習算法最優的學習速率;(3) 對同時基於算法穩定性、空間複雜性來界定學習算法的推廣性能進行了研究; (4) 在理論研究的基礎上,我們提出了能明顯改善經典的隨機抽樣下支持向量機分類、Fisher線性判別、正則化回歸、線上支持向量機分類等學習算法學習性能的馬氏抽樣方法,並取得了比較好的基於實際數據的實驗效果。到目前為止,我們已完成了項目的全部研究內容,達到了預期的研究目標。在本項目的資助下,我們已發表或接受待發表的相關研究論文13篇,其中IEEE Transactions regular paper 2篇,SCI二區(中科院2012年分區)收錄論文2篇,SCI收錄論文6篇,EI收錄論文2篇,國核心心期刊論文1篇。

相關詞條

熱門詞條

聯絡我們