概念漂移

預測分析和機器學習的概念漂移表示目標變數的統計特性隨著時間的推移以不可預見的方式變化的現象。隨著時間的推移,模型的預測精度將降低。

該術語的概念指的是要被預測的目標變數。更一般地,它也可以指其他感興趣的現象之外的目標的概念,諸如輸入,但是在概念漂移的上下文中,術語通常指的是目標變數。

基本介紹

  • 中文名:概念漂移
  • 外文名:Concept drift
例子,可能的補救措施,軟體,

例子

在欺詐檢測應用程式中,目標概念可以是具有值“是”或“否”的二進制屬性FRAUDULENT,其指示給定交易是否是欺詐性的。或者,在天氣預報套用中,可能存在若干目標概念,例如TEMPERATURE,PRESSURE和HUMIDITY。
線上商店中的客戶的行為可能隨時間而改變。例如,如果要預測每周的商品銷售,並且已經開發出令人滿意的預測模型。該模型可以使用諸如廣告花費的金額,正在運行的促銷以及可能影響銷售的其他指標等輸入。隨著時間的推移,模型可能變得越來越不準確 - 這就是概念漂移。在商品銷售套用中,概念漂移的一個原因可能是季節性,這意味著購物行為會季節性變化。例如,冬季假期的銷售額可能高於夏季。

可能的補救措施

為了防止由於概念漂移導致的預測精度的惡化,可以採用有源和無源解決方案。主動解決方案依賴於觸發機制,例如變化檢測測試(Basseville和Nikiforov 1993; Alippi和Roveri,2007),以明確地將概念漂移檢測為數據生成過程統計數據的變化。在靜止條件下,可以集成任何可用的新信息來改進模型。不同的是,當檢測到概念漂移時,當前模型不再是最新的,必須用新的模型替換以保持預測準確性(Gama等,2004; Alippi等,2011)。相反,在被動解決方案中,模型不斷更新,例如,通過在最近觀察到的樣本上重新訓練模型(Widmer和Kubat,1996),或強制執行一組分類器(Elwell和Polikar 2011)。

軟體

RapidMiner(以前的YALE(又一個學習環境)):用於知識發現,數據挖掘和機器學習的免費開源軟體,還具有數據流挖掘,學習時變概念和跟蹤漂移概念(如果與其結合使用) 數據流挖掘外掛程式(原名:概念漂移外掛程式)。
EDDM(EDDM(早期漂移檢測方法)):Weka(機器學習)中漂移檢測方法的免費開源實現。
MOA(大規模線上分析):免費的開源軟體,專門用於挖掘具有概念漂移的數據流。 它包含一個前序評估方法,EDDM概念漂移方法,ARFF真實數據集的讀者,以及作為SEA概念的人工流生成器,STAGGER,旋轉超平面,隨機樹和基於隨機半徑的函式。 MOA支持與Weka(機器學習)的雙向互動。

相關詞條

熱門詞條

聯絡我們