定義
稀疏數據是指,數據框中絕大多數數值缺失或者為零的數據。在現代社會中,隨著信息的爆炸式增長,數據量也呈現出爆炸式增長,數據形式也越來越多樣化。在數據挖掘領域,常常要面對海量的複雜型數據。其中,稀疏數據這一特殊形式的數據正在越來越為人們所注意。
稀疏數據絕對不是無用數據,只不過是信息不完全,通過適當的手段是可以挖掘出大量有用信息的。然而在一些情況下,數據的稀疏程度甚至會達到 95%以上,這使得傳統的統計方法不適於處理此類數據。
來源
稀疏數據的來源與產生原因可以有很多種。目前大致歸結起來,主要可以概括為以下幾個種類:
由於調查不當產生的稀疏數據
這種稀疏數據常見於問卷調查和電話調查中,如果問卷問題設定不當,過於繁雜難懂,就會導致被調查者產生厭煩心理,草草回答幾個問題了事。然而已經回答的問題又是有效問卷的一部分,不能做遺棄處理,假若這種問卷大量出現,那么就會出現稀疏數據。
由於天然限制產生的稀疏數據
這種稀疏數據常見於電子商務領域,例如淘寶網、沃爾瑪等網購網站或超市中。由於每個客戶客觀上不可能把所有商品購買一遍,所以他們的客戶購買記錄必然只是對海量商品中一小部分的記錄。這樣,客戶購買記錄必然是一個稀疏數據。
文本挖掘中產生的稀疏數據
在文本挖掘領域,為了比較幾篇文章是否屬於同一主題,常用的算法是首先選定一批關鍵字,通過不同文章中這些關鍵字出現的頻率來進行判斷。而這一批關鍵字常常會有成千上萬個,而每篇文章基本只包含其中幾十到幾百個關鍵字,那么由此產生的數據也就是一個稀疏數據了。
醫學造影成像領域
現代醫學常常要藉助 CT、B 超、核磁等手段造影成像,作為判斷病情的重要手段。其中 CT 成像是由若干射線源與接收器來採集數據,在實際套用中,受到設備、病人條件等限制,常常不能做到全形度掃描,故而在成像算法上也常常要面對稀疏數據。
稀疏聚類
目前針對稀疏數據的另一個研究方向就是對稀疏數據的聚類與降維。稀疏數據不同於一般數據,它的維度常常極其巨大,並且由於大量的缺失值的存在,使得數據信息極端不完整,常見的降維方法例如主成分、因子分析等無法在此上套用。
針對這一情況,很多學者開始研究探索一些其他的方法來解決這一問題。謝寧新在他發表的文章中,提出利用二進制數來計算稀疏相似度,進而進行聚類。他首先引用了稀疏特徵的二進制碼概念,通過設定一個閾值 b,將稀疏矩陣中大於 b 的數用1 表示,小於 b 的用 0 表示,將稀疏矩陣轉換成了二進制碼矩陣。然後採用二進制數的布爾 AND 運算,計算 u1AND u2,其中 u1和 u2分別表示兩個樣本的二進制碼序列。AND 具體的運算規則是,若兩條序列中,同一位置的二進制碼同為 1,則返回數值 1;否則返回數值 0。最後計算 u1AND u2中數字 1 的個數,將之作為兩樣本的相關性。並進而將相關性顯著大的樣本聚為一類。
該二進制碼算法在一定程度上克服了稀疏數據計算相似度的困難,並且有著運算速度極高的特點,但是套用局限較大。將數據轉換成二進制碼本身會損失大量信息,對於高度稀疏的數據來說,人為地損失到本就很稀少很珍貴的數據信息,並不是一個明智的選擇。
此外,趙雅琴等人的研究中,給出了稀疏相似度、等價關係相似度、廣義等價關係等概念。他們也同樣是首先將稀疏數據進行二進制碼的轉換,然後利用不同項目間的稀疏相似度和等價關係,得出初始等價類,然後再對初始等價關係利用等價關係相似度進行修正,從而使聚類結果更為合理。
在數據挖掘領域裡也常常有一些算法概念被借鑑過來,有學者提出了一種改進的局部線性嵌入算法(locally linear embedding),通過一種非線性映射,在不改變原始數據空間流形的前提下,將高維樣本映射到低維空間中去。針對於稀疏數據,他採用一種聯合局部線性嵌入(united locally linear embedding),並通過實驗表明了良好的降維效果。
恢復問題
稀疏信號是指絕大多數元素為 0 的信號, 與同樣長度的普通信號相比, 它包含的信息較少。 因此, 稀疏信號可以充分地壓縮, 從而節約儲存空間, 減少傳輸量。近年來, 數據的稀疏性在壓縮感測、信號/圖像處理、大數據分析與處理、機器學習和統計推斷等領域受到廣泛關注並獲得了成功的套用。 數據恢復是指將遭到干擾或者破壞的數據還原成真實數據。 數據被干擾或破壞的原因有很多, 如存儲和傳輸介質的影響、測量儀器與觀測過程產生的誤差以及外界噪聲的干擾等等。 數據恢復問題廣泛存在, 例如, 稀疏信號壓縮感測問題 (Compressed Sensing Problem,簡稱 CS 問題);低秩矩陣完整化問題 (Matrix Completion Problem, 簡稱 MC 問題); 基於全變差正則化 (Total-Variation based Regularization) 的圖像恢復問題(Image Reconstruction Problem, 簡稱 TVIR 問題)。 上述三類問題的共同特點是需要恢復的數據具有某種稀疏結構, 因此稱為稀疏數據恢復問題。 稀疏數據恢復問題的數學規劃模型一般具有特殊結構, 如目標函式的可分性、向量的稀疏性、矩陣的低秩性等。 如何高效地從病態的線性反問題中唯一且穩健地恢復出特定的信息是許多學者長期以來致力於研究的重要課題。
套用場景
稀疏數據廣泛存在於各種套用場景中,如:在分散式管理系統Condor中用戶可以自己定義新的屬性,因此,在一個數據集中很多屬性幾乎都是空值;同時,稀疏數據還大量存在於電子商務的套用中,每位商家都可以定義自己商品或者訂單特有的屬性,從而使得數據有成千上萬的屬性值,如中有5000個屬性,但是對於每個元組,這些屬性值幾乎都是空值;在醫學、地球科學等領域,存在著大量的稀疏數據。