噪聲數據

噪聲數據

噪聲數據是指數據中存在著錯誤或異常(偏離期望值)的數據,這些數據對數據的分析造成了干擾。

基本介紹

  • 中文名:噪聲數據
  • 外文名:Noisy Data
  • 領域:數據挖掘、機器學習
簡介,引起噪聲數據的原因,噪聲數據的影響,噪聲數據處理方法,回歸,異常值檢測,

簡介

噪聲數據(Noisy Data)就是無意義的數據,這個詞通常作為損壞數據的同義詞使用。但是,現階段的意義已經擴展到包含所有難以被機器正確理解和翻譯的數據,如非結構化文本。任何不可被源程式讀取和運用的數據,不管是已經接收、存貯的還是改變的,都被稱為噪聲。

引起噪聲數據的原因

引起噪聲數據的原因可能是硬體故障、編程錯誤、語音或光學字元識別程式(OCR)識別出錯等。例如:手機信號來自於基站發射的電磁波,有的地方比較強,有的地方比較弱。運營商的工程師會負責統計不同區域信號強弱來進行網路規劃,工程師採集信號的方法就是將一個信號接受終端固定到車上,然後開車繞著基站轉,信號終端就會自動採集不同區域的信號強度,生成一份數據。但是如果車在採集過程中遇到了突發事件、急剎車,就可能會對信號採集造成一定的影響,生成噪聲數據。

噪聲數據的影響

噪聲數據未必增加存儲空間量,它可能會影響對數據分析的結果。很多算法,特別是線性算法,都是通過疊代來獲取最優解的,如果數據中含有大量的噪聲數據,將會大大的影響數據的收斂速度,甚至對於訓練生成模型的準確也會有很大的副作用。

噪聲數據處理方法

回歸

如果變數之間存在依賴關係,即
,那么我們可以設法求出依賴關係f,從而根據x來預測y,這也是回歸問題的實質。實際中更常見的假設是
,N是常態分配。假設y是觀測值且存在噪聲,如果我們能求出x和y之間的依賴關係,從而根據x來更新y的值,就可以去除其中的隨機噪聲,這就是回歸去噪的原理。

異常值檢測

數據中的噪聲可能有兩種,一種是隨機誤差,另外一種可能是錯誤,比如我們手上有一份顧客的身高數據,其中某一位顧客的身高紀錄是20m,很明顯,這是一個錯誤,如果這個樣本進入了我們訓練數據可能會對結果產生很大影響,這也是去噪中使用異常值檢測的意義所在。當然,異常值檢測遠不止去噪這么一個套用,網路入侵檢測、視頻中行人異常行為檢測、欺詐檢測等都是異常值檢測的套用。

相關詞條

熱門詞條

聯絡我們