方差正則化的分類模型選擇方法研究

方差正則化的分類模型選擇方法研究

《方差正則化的分類模型選擇方法研究》是依託山西大學,由王鈺擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:方差正則化的分類模型選擇方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:王鈺
  • 依託單位:山西大學
項目摘要,結題摘要,

項目摘要

在生物信息, 圖像處理等領域中, 如何利用統計機器學習方法選擇一個合適的模型是進行模式分類的前提和關鍵. 傳統的機器學習中往往直接基於性能度量指標的估計本身進行模型的選擇, 但是這樣的方法顯然沒有考慮估計的波動性從而有可能選擇到錯誤的模型. 特別地, 近年來統計顯著性檢驗方法被引入通過對照兩個分類模型性能的差異來選擇一個更優模型, 檢驗的方法雖然添加了方差信息但它依賴於數據的分布假定且進行多個模型中的兩兩模型對照時計算開銷非常大, 不適合直接用於多個模型的選擇. 基於上述分析, 我們考慮提供一個廣泛使用的交叉驗證框架下的方差正則化分類模型選擇方法. 本項目的研究主要包括: (1)提供性能度量指標的交叉驗證估計的準確合適的方差估計;(2)基於現有的交叉驗證分類模型選擇方法和提出的方差估計構造融合正則化方差的分類模型選擇方法;(3)理論和實驗分析證明它的優越性和可行性.

結題摘要

在機器學習的分類問題研究中,對於給定的某個性能度量指標如何選擇一個合適的模型是進行學習的前提和關鍵,它在圖像處理,自然語言處理等實際套用中都起著非常重要的作用。鑒於傳統文獻中的分類模型選擇方法要么沒有考慮估計的波動性,只基於性能度量指標的估計本身進行選擇,要么雖然通過統計顯著性檢驗引入了方差信息但不容易被廣泛使用,我們提出了一種廣泛使用的交叉驗證框架下的方差正則化分類模型選擇準則。本項目主要進行了以下內容的研究: (1)理論上分析了基於交叉驗證的準確率(p),召回率(r),F1值等性能度量指標的方差結構,構造了它們的精確置信區間; (2)針對交叉驗證中不好的數據劃分將導致不好的統計推斷結果的問題,提出了一個用於數據劃分度量的統計量; (3)通過考慮度量指標之間的相關性, 提出了一種基於自由度校正的5×2交叉驗證F檢驗模型選擇方法; (4)基於M×2交叉驗證的方差結構分析提出了一種基於塊內樣本協方差和塊間樣本協方差折中的保守方差估計方法; (5)開展了簡單線性模型情形下正則化參數的選擇方法研究,提出了基於組塊3×2交叉驗證的正則化參數選擇方法; (6)理論上證明了構造的模型選擇準則具有選擇的一致性,模擬和真實數據實驗驗證了此模型選擇準則相對於傳統模型選擇方法的優越性; (7)進一步,把上述正則化模型選擇的思想用於遙感雲圖像處理中圖像解析度的選擇和自然語言處理中漢語框架語義角色的識別。 本項目的研究立足於學科的交叉,學科的關鍵問題,對於機器學習,模式識別,數據挖掘,統計學等相關領域的研究,以及眾多的機器學習相關套用都具有現實意義和套用前景。

相關詞條

熱門詞條

聯絡我們