衍生特徵

衍生特徵

特徵是一個客體或一組客體特性的抽象結果。在計算機科學領域,衍生特徵是指用原始數據進行特徵學習得到新的特徵。在機器學習中,產生衍生特徵的原因有多種:數據具有時間屬性,帶有強烈時間特徵;數據具有動態性、無序性、無限性、突發性。

基本介紹

  • 中文名:衍生特徵
  • 外文名:Derived features
  • 學科:計算機
  • 定義:數據進行特徵學習得到新的特徵
  • 原因:數據本身、算法
  • 領域:人工智慧
簡介,特徵學習,增量學習,遷移學習,

簡介

衍生特徵是指用原始數據進行特徵學習得到新的特徵。衍生特徵一般有兩種原因引起的:數據自身的變化,使數據中出現很多原來沒有的特徵;進行特徵學習時,算法根據特徵之間的某種關係,產生了衍生特徵,有時衍生特徵更能反應數據特徵之間的關係。衍生特徵也要求機器學習和深度學習算法擁有更強的學習能力,即增量學習、線上學習、遷移學習。

特徵學習

在機器學習中,特徵學習或表征學習是學習一個特徵的技術的集合:將原始數據轉換成為能夠被機器學習來有效開發的一種形式。它避免了手動提取特徵的麻煩,允許計算機學習使用特徵的同時,也學習如何提取特徵:學習如何學習。
機器學習任務,例如分類問題,通常都要求輸入在數學上或者在計算上都非常便於處理,在這樣的前提下,特徵學習就應運而生了。然而,在我們現實世界中的數據例如圖片,視頻,以及感測器的測量值都非常的複雜,冗餘並且多變。那么,如何有效的提取出特徵並且將其表達出來就顯得非常重要。傳統的手動提取特徵需要大量的人力並且依賴於非常專業的知識。同時,還不便於推廣。這就要求特徵學習技術的整體設計非常有效,自動化,並且易於推廣。

增量學習

腦具有漸進學習的能力,研製具有類似人腦學習能力的計算模型一直是機器學習領域的重要分支之一。在實際套用中由於採集樣本的代價或時間等原因,很難一次性獲得全部樣本。實際問題也不允許等到獲取全部樣本後再進行機器學習。因此只能逐步將獲取樣本中包含的知識納入學習系統中,也就是進行增量學習。增量學習(Incremental Learning)是指一個學習系統能不斷地從新樣本中學習新的知識,並能保存大部分以前已經學習到的知識。增量學習非常類似於人類自身的學習模式。增量學習主要表現在兩個方面:一方面由於其無需保存歷史數據,從而減少存儲空間的占用;另一方面增量學習在當前的樣本訓練中充分利用了歷史的訓練結果,從而顯著地減少了後續訓練的時間。增量學習主要有兩方面的套用:一是用於資料庫非常大的情形,例如Web日誌記錄;二是用於流數據,因為這些數據隨著時間在不斷的變化,例如股票交易數據。另外在增量學習中,現有的增量學習算法大多採用決策樹和神經網路算法實現的,它們在不同程度上具有以下兩方面的缺點:一方面由於缺乏對整個樣本集期望風險的控制,算法易於對訓練數據產生過量匹配;另一方面,由於缺乏對訓練數據有選擇的遺忘淘汰機制,在很大程度上影響了分類精度。

遷移學習

遷移學習是運用已存有的知識對不同但相關領域問題進行求解的新的一種機器學習方法。它放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量或甚至沒有有標籤樣本數據時的學習問題。遷移學習廣泛存在於人類的活動中。兩個不同的領域共享的因素越多,遷移學習就越容易,否則就越困難,甚至出現“負遷移”,產生副作用。比如:一個人要是學會了騎腳踏車,那他就很容易學會開機車;一個人要是熟悉五子棋,也可以輕鬆地將知識遷移到學習圍棋中。但是有時候看起來很相似的事情,卻有可能產生“負遷移”。
遷移學習可以分為三類:歸納遷移學習(Inductive Transfer Learning)、直推式遷移學習(Transductive Transfer Learning)和無監督遷移學習(Unsupervised Transfer Learning)。歸納遷移學習:如果源領域中有可用的標註數據,此時的歸納遷移學習與多任務學習相似,不過多任務學習時同時從源領域和目標領域學習。歸納遷移學習只是把別的任務中學習到的知識套用到目標任務中來提升分類效果。如果源領域中沒有可用的標註數據,此時的歸納遷移學習就和自指導學習相似。直推式遷移學習:在直推式遷移學習中,源任務和目標任務是相同的,但源領域和目標領域是不同的。這種情況下,目標領域沒有標註數據可用,但是源領域中的標註數據是可用的。這個時候還需要考慮源領域和目標領域的特徵空間是否是相同的。輸入數據的邊緣機率是否相同。無監督遷移學習:這種情況源領域和目標領域都沒有可用的標註數據。主要集中於研究目標領域中的無監督學習:聚類、維規約和密度估計。

相關詞條

熱門詞條

聯絡我們