簡介
線上分析加工是指計算機系統實時地對新的信息或數據進行加工分析。線上分析加工能有效應對增量數據問題,並能及時發現處理數據中的問題和更改模型或策略。線上分析加工在很多領域都有套用,例如電子商務、銀行等。在人工智慧領域,線上分析加工有利於算法和有關性能的改進。
原因
隨著自媒體、物聯網和雲計算等新興技術的快速發展。產生了類別繁多、形態各異的海量數據,各類套用正全面進入大數據時代。例如,全球存在的監控攝像頭達到1億個,每天產生的監控視頻達到2.3ZByte;電商淘寶每分鐘產生的訂單量達到8300多個各個行業產生的業務數據大多數情況下可以看作動態達到的流式數據。與傳統數據相比,這類數據具有動態性、無序性、無限性、突發性和體積大等特點。首先,大批量的數據源源不斷地湧入,將這類數據完全存儲下來幾乎不可能;其次,數據具有時間屬性,帶有強烈時間特徵;訓練樣本和測試樣本的分布可能不同(樣本的特徵可能隨時間變化(增加或者缺失),同時可能有新的類別產生,呈現動態變化的特點。這樣一類數據分布動態變化的問題給機器學習帶來一些深刻的變化和挑戰。一方面,就擬合或預測未來數據而言,由於獨立同分布假設顯然不成立,因此不能像對待傳統的學習問題那樣!把在歷史數據上訓練得到的學習機器直接作用於未來的數據,傳統的很多理論和方法都需要修正。另一方面,從建模的角度!缺少獨立性和同分布性,樣本集的機率不能簡單地再寫成各樣本機率的乘積。最後,日益豐富的套用問題中,人們不僅需要學習機器能很好地擬合或預測未來數據。同時也希望它能夠揭示出數據的動態演化規律,從而讓人們可以更好地理解數據。傳統的學習方法歸根結底是對某一靜態數據分布的學習,沒有提供學習數據分布變化規律的辦法,這一問題逐漸引起機器學習和數據挖掘領域的重視,並將分布隨時間變化的數據稱為非平穩數據或演化數據從時間效率的角度!提高學習算法對海量數據的處理效率迫在眉睫,將海量訓練數據進行批處理的時間耗費往往成為制約實際套用的主要問題。傳統基於獨立同分布假設條件下的機器學習迎來了來自數據流的挑戰。
套用
網路數據流
網路數據流分類和異常檢測任務的核心是以網路數據流為輸入,快速準確地判斷異常情況的發生。識別異常類型並進行預警,傳統方法的基本思路是首先提取網路數據的流特徵將其作為刻畫流的根本屬性,然後採用貝葉斯方法、決策樹、神經網路和支持向量機等算法對其進行分類,由於缺乏對數據流的概念漂移和演化大規模的高速特性、數據不平衡性以及非獨立同分布情況的有效處理機制。傳統框架無法客觀反映網路流數據的本質特性,且不能滿足網路數據流分類的特殊要求。數據流中的特徵冗餘、概念漂移和時間演化特性等問題在早期研究中已經有所反映'實際套用領域中的數據流概念可能是事例中若干特徵組成的集合,也可能是若干特徵隱含分布規律等,這種數據潛在概念隨時間發生改變的現象稱為概念漂移,而概念演化是指隨著時間的推移新類別或者新特徵出現從而導致整個數據分布發生變化,無論是概念漂移還是概念演化都定義了記憶固定長度樣本的時間窗來保證學習到漂移的概念。通常需要時間窗較長以保證學習到足夠的樣本!在大規模網路數據流的情況下,這樣的配置使得空間和時間要求都呈指數增加,大量的數據導致運算困難,與此同時,針對高速網路數據流的學習模型選擇也是困難的問題。例如,在骨幹流量中的加密虛擬專用網路,由於各種加密採用的加密手段和加密機制都不相同,因此針對這些加密負載部分需要定義大量的數據以隨機性檢驗特徵值,重疊模板按照8位計算,產生的密數據特徵接近2萬維,這對於數據流的線上學習無疑是個不小的數字。同時,由於流隨時間演化的特性!數據分布已經不能滿足獨立同分布的假設!因此模型結構或參數也不固定。但是數據流源源不斷地到來,不同的流既有共同的特徵組又有不同的分布!即為在多任務環境下完成對特徵組的線上特徵選擇。線上學習套用於數據流學習可以解決上述部分問題,首先,數據以流的形式到達,需要提供高效的線上學習,以方便對數據的實時處理。因此需要對數據以最精簡高效的方式表示,針對動態數據流,模型的快速增量學習和演化策略,需要建立多層次語義的特徵挖掘模型。進而,為保證最終分類模型的分類精度和泛化能力。其次,數據具有強烈的時間高層特徵,每個時間片段所對應的類先驗機率和類條件機率都可能變化。如,在網路異常檢測中,網路異常通常包括各種網路故障、流量的異常表現和擁塞等。各種網路攻擊層出不窮,數據是原數據中從未出現過的,因此要求新的線上學習方法能夠自動地偵測當前要鑑別的流數據是原來數據中存在的還是新生成的'數據樣本不斷增長,而特徵描述也在變化(增加和缺失),基於線上學習的預測和分析也需要對每個特徵的重要性進行排序,實現對概念演化的辨識,用戶希望通過對底層特徵的描述以及多個特徵的組合形成對新生成類別語義上的描述。在時間序列演變過程中能夠實時根據高層特徵的變化作出自適應的調整,獲得對新生成類別的鑑別。總的來看,針對數據流分類問題目前主要採用線上學習算法、線上的特徵表示和選擇技術。研究線上特徵學習的新理論和新方法,針對網路數據流具有極其重要的研究意義和套用價值。
圖像檢索
從20世紀70年代開始,有關圖像檢索的研究就已開始,當時主要是基於文本的
圖像檢索技術(Text-based Image Retrieval,簡稱TBIR),利用文本描述的方式描述圖像的特徵,如繪畫作品的作者、年代、流派、尺寸等。到90年代以後,出現了對圖像的內容語義,如圖像的顏色、紋理、布局等進行分析和檢索的圖像檢索技術,即基於內容的圖像檢索(Content-based Image Retrieval,簡稱
CBIR)技術。CBIR屬於基於內容檢索(Content-based Retrieval,簡稱
CBR)的一種,CBR中還包括對動態視頻、音頻等其它形式
多媒體信息的檢索技術。
文本檢索
基於文本的圖像檢索沿用了傳統
文本檢索技術,迴避對圖像可視化元素的分析,而是從圖像名稱、
圖像尺寸、壓縮類型、作者、年代等方面標引圖像,一般以關鍵字形式的提問查詢圖像,或者是根據等級目錄的形式瀏覽查找特定類目下的圖像,如Getty AAT使用近133,000個術語來描述藝術、藝術史、建築以及其它文化方面的對象,並推出30多個等級目錄,從7方面描述圖像的概念、物理屬性、類型和刊號等。又如Gograph)將圖像分為動態圖像、照片、圖示、背景、藝術剪輯圖、插圖、壁紙、界面、成套圖像8個一級類,下設數量不等的子類。在
圖像數位化之前,檔案管理者、圖書管理員都是採用這種方式組織和管理圖像。 圖像所在頁面的主題、圖像的檔案名稱稱、與圖像密切環繞的文字內容、圖像的連結地址等都被用作
圖像分析的依據,根據這些
文本分析結果推斷其中圖像的特徵。
內容檢索
基於內容的圖像檢索根據圖像、圖像的內容語義以及上下文聯繫進行查找,以圖像語義特徵為線索從
圖像資料庫中檢出具有相似特性的其它圖像。因為圖像的規模一般要大於純粹的文本信息,因此,基於內容的圖像檢索在檢索的速度和效率上要求更高。目前已有不少套用於實踐環境的基於內容圖像檢索系統,如由
IBM公司開發的最早商業化QBIC系統,以及由
哥倫比亞大學研發的WebSeek系統、
麻省理工學院研發的Photobook系統等。通過基於內容的技術檢索Web圖像,首先需要從Web中剝離圖像,組成圖像集,對圖像集中的各個對象進行基於內容的特徵分析、相似度匹配。