簡介
特徵映射,也稱
降維,是將高維多媒體數據的特徵向量映射到一維或者 低維空間的過程。在高維特徵資料庫中,高維數據 存在數據冗餘。由於索引結構的性能隨著維數的增 大而迅速降低,在維數大10以後,性能還不如順 序掃描,形成維數災難。降維後,套用成熟的低維索引技術,以提高性能。基於特徵映射方法簡單來說是指將數據從高維空間映射到低維空間,然後用分類器進行分類,為了得到較好的分類性能。在遷移學習領域,已經有不少學者提出了不同的方法,例如潘嘉林等人提出了一種新的維度降低遷移學習方法, 他通過最小化源領域數據與目標領域數據在隱性語義空間上的最大均值
偏差(Maximun Mean Discrepancy),求解得到降維後的特徵空間。在該隱性空間上,不同的領域具有相同或者非常接近的數據分布,因此就可以直接利用監督學習算法訓練模型對目標領域數據進行預測。顧全泉(Quanquan Gu)等人探討了多個聚類任務的學習(這些聚類任務是相關的), 提出了一種尋找共享特徵子空間的框架。在該子空間中,各個領域的數據共享聚類中心,而且他們還把該框架推廣到直推式遷移分類學習。 布利澤 (Blitzer)等人 提出了一種結構對應學習算法(Structural Corresponding Learning,SCL)。該算法把領域特有的特徵映射到所有領域共享的“軸”特徵,然後就在這個 “軸” 特徵下進行訓練學習。 結構對應學習算法已經被用到詞性標註以及情感分析中。
特徵映射方法
基於低維投影的降維方法
主成分分析(principal component analysis,PCA): 是使用最為廣泛的線性降維方法之一,它先 將數據投影到某一個主成分上,然後丟掉具有較小方差的那些維的信息,尋找具有最大方差的線性特徵集,達到降維的目的。該方法的概念簡單、計算方便,但是,沒有統一的標準來確定主成分及其數 量。
投影法(projection pursuit,PP):其基本思想 是將高維數據投影到低維(一般是1~3維)子空間上,通過分析和研究投影數據以達到了解原始數據的目的。該方法最早產生於20世紀70年代初,Kruskal將數據投影到低維空間,通過極大化某個指標,以發現數據的聚類結構。聚類效果取決於索引函式的選擇和最佳化算法。該方法可有效排除噪聲數據的干擾,但是,計算量大,不適用於高度非線性數據。
基於神經網路的降維方法
自動編碼神經網路法(auto-encoder networks):是一種前向反饋網路。該網路把高維空間的輸入向量映射到具有最少神經元的一層的激勵 所表示的低維空間中,而具有最少神經元的一層的下一層再把低維表示映射到D維空間。
自組織映射法(self-organizing mapping):對每個聚類都賦予降維後的空間中的固定位置,並根據該位置用鄰居函式來評價聚類之間的近似度。鄰居函式的值越大聚類之間的接近程度越高。根據鄰居函式值,高維數據被映射到最優聚類的位置,實現高維數據的降維。該方法能很好地用於高維數據可視化。
生成建模法(generative modelling): 是基於混合密度估計的,所有的聚類都用高斯混合密度表示。
基於數據間相關度的降維方法
多維比例法(multi-dimensional scaling): 是 尋找保留了數據主要特徵的低維空間,在該空間裡 的數據點不僅和高維空間中的原數據對應,並且保持原數據點之間的歐式距離的差異度。適用於原始數據的距離矩陣已知的情況。
隨機鄰居嵌入法(stochastic neighbor embedding): 不直接使用數據間的差異,而是用它們定義轉換矩陣,該矩陣的每一行都包含了與一個數據點相關聯的分布,該矩陣則定義了數據點集上的隨機遍歷。
等容積法(isometric mapping): 是對多維比例法的擴展,區別在於採用測地距離表示兩點的差異。
局部線性嵌入法(locally linear embedding): 是非線性降維方法,其中高維空間由許多描述它的本質屬性並且相互鄰接的局部線性塊組成。該方法有效地獲取高維數據的本質特徵,計算方法簡單、直觀。
拉普拉斯特徵映射法(Laplacian eigen maps):拉普拉斯特徵映射法首先將數據點與其最近鄰居連線起來以構建一個鄰居圖,然後給圖的每條邊均賦予相應的權值,最後尋求數據集的嵌入坐標表示,並保證嵌入點之間的平方距離最小,從而得 到降維空間中的最優低維表示向量。
基於分形的降維方法
如果一個數據集的部分分布結構或屬性與整體 分布相似,則稱該數據集是分形的。基於分形的降 維方法首先要比較準確地估計出數據的本徵維,包 括分數維,進而進行降維處理。
遷移學習
隨著計算機技術的快速發展,機器學習在理論研究和實踐套用兩個方面都取得了巨大進步。為了保證訓練得到的分類模型具有可信的分類效果,傳統的機器學習方法通常假設數據的生成機制不隨環境改變,即要求源域數據和目標域數據具有相同的分布。然而在機器學習的實際套用領域中,如自然語言處理、大數據分析、生物信息技術、自動控制等,這一假設通常因為過於嚴格而不能成立。遷移學習(Transfer Learning,TL)的出現打破了這一限制要求,只要源領域和目標領域之間具有一定的關聯關係,在目標領域分類模型訓練時就可以藉助從源領域數據和特徵中已經提取的知識,實現已學習知識在相似或相關領域間的復用和遷移,使傳統的從零開始學習變成可積累學習,不僅降低了模型訓練的成本,而且可以顯著提高機器學習的效果。因此遷移學習可以幫助人們處理一些新的套用場景,使機器學習在沒有充足可用標籤數據和規模化套用時也能夠實現。遷移學習作為一種新的學習框架受到越來越多學者的關注和研究。美國國防部DARPA機器人大賽文檔系列給出了遷移學習的基本定義:利用事先學習的知識和技能來識別新任務的學習能力。遷移學習是運用已存有的知識對不同但相關領域問題進行求解的新的一種機器學習方法。 它放寬了傳統機器學習中的兩個基本假設, 目的是遷移已有的知識來解決目標領域中僅有少量或甚至沒有有標籤樣本數據時的學習問題。
遷移學習廣泛存在於人類的認知學習活動中,比如一個人如果會使用 C++編程,那么他很容易就會掌握 Java 程式語言;一個人要是會拉小提琴,那么他就能夠輕鬆地把拉小提琴的相關音樂知識遷移到學習鋼琴中去。而且在遷移學習的兩個領域之間,可以共享的信息越多、相似度越高,知識遷移學習的效果就越好,反之,效果越差,甚至會給目標領域數據的學習帶來不好的影響,即產生“負遷移”現象。