域自適應學習

域自適應學習(Domain Adaptation Learning)能夠有效地解決訓練樣本和測試樣本機率分布不一致的學習問題,是當前機器學習的熱點研究領域,在自然語言處理,文本分析,生物信息學,跨語言分析,視頻分析,情感分析和手寫體識別等領域有廣泛套用。

基本介紹

  • 中文名:域自適應學習
  • 外文名:Domain Adaptation Learning
問題描述,自適應學習假設,分類,域自適應學習理論分析,

問題描述

域自適應學習能夠有效地解決訓練樣本和測試樣本機率分布不一致的學習問題, 作為機器學習新出現的研究領域在近幾年受到了廣泛的關注.傳統的機器學習算法中, 通常假設訓練樣本和測試樣本來自同一機率分布, 然後設計相應的模型和判別準則對待測試的樣例的輸出進行預測. 但是實際上當前很多學習場景下訓練樣本的機率分布和測試樣本的機率分布是不同的, 例如如何根據老用戶的郵件信息設計一種面向新用戶的垃圾郵件過濾系統、自然語言處理方面的情感分析、依存句法分析、跨語言處理等都屬於域自適應學習問題. 如何在這種源域和目標域機率分布不一致的情況下進行學習即為域自適應學習問題. 因此, 域自適應學習的重點在於如何克服源域分布和目標域分布不同, 實現目標域上的學習任務.

自適應學習假設

協變數遷移假設
概念遷移(Concept shift) 假設
先驗機率遷移(Prior probability shift)

分類

從不同的學習場景看, 域自適應學習可分為: 分類問題、回歸問題和聚類問題. 降維是處理域自適應學習問題的一種重要手段, 因此有必要將域自適應降維作為單一獨立的主題, 與域自適應分類、域自適應回歸和域自適應聚類一起進行討論.
對於多源域和多目標域的學習, 不同類的域自適應學習所側重的套用場景也不同. 多源域自適應學習多用於多示例學習場景和多視圖學習場景. 而多目標域自適應學習多用於多標籤學習場景、結構化輸出、偏序學習和排序學習等場景.
根據源域和目標域的觀點, 自適應學習理論和方法由兩部分構成: 單源域單目標域自適應學習和多源域多目標域自適應學習. 如果能夠對單源域-單目標域實現域自適應學習, 那么通過組合等方法可以擴展為多源域- 多目標域的域自適應學習. 即單源域-單目標域學習理論和方法可視為域自適應學習的基石, 多源域-多目標域學習可以看作擴展.
單源域-單目標域的域自適應學習分為
樣例加權域自適應學習、特徵表示域自適應學習、基於特徵和參數分解的域自適應學習.
樣例加權域自適應學習對訓練樣本附加權值, 使加權後的訓練樣本的機率分布逼近目標域的機率分布, 根據域自適應學習權值的計算方法的不同, 將樣例加權域自適應學習分為: 重要性抽樣方法、核均值匹配方法和Ad-aBoost 方法;
特徵表示域自適應學習是將樣例映射到新的特徵空間中, 通過選擇合適的特徵表示方式,使源域和目標域在新的特徵空間下的分布相同或儘可能相同.
基於特徵表示的域自適應學習算法多種多樣, 最重要的兩種方法是基於核映射函式的方法和結構對應學習, 此外還包含協同聚類方法、維數約簡方法、遷移分量分析方法. 其中基於核映射函式的方法又包含最小化均值偏差和最小化離散度偏差兩種映射方法;
基於特徵和參數分解的方法的基本思路是對特徵和模型參數分解, 這種基於特徵和模型參數分解的方法是處理域自適應學習問題的另一類有效方法. 分解方法包括增廣特徵和模型參數分解兩種形式. 通過適當的處理方法(例如組合加權等方法), 可以將單源域- 單目標域學習理論有效的擴展為多源域- 多目標域的情況.
解決多源域自適應學習問題的方法可分為三大類: 基於源域判別函式學習的方法、基於正則化項加權組合的方法和基於流形平滑性假設的方法.
域自適應學習

域自適應學習理論分析


域自適應學習理論研究主要集中於:
1) 學習的可能性, 即滿足什麼條件才有可能實現域自適應學習;
2) 學習的魯棒性, 域自適應學習的魯棒性與普通意義上的魯棒性是不同的: 在域自適應學習的魯棒性中, 將訓練樣本分布和測試樣本分布之間存在的\差異" 視為擾動, 通過克服擾動, 實現對目標域的學習;
3) 學習的統計估計一致性, 域自適應學習算法應使用儘可能少的樣本數, 具有儘可能好的泛化能力, 實現最小的誤差上界.

相關詞條

熱門詞條

聯絡我們