簡介 深度學習是一類
模式分析 方法的統稱,就具體研究內容而言,主要涉及三類方法:
(1)基於卷積運算的神經網路系統,即
卷積神經網路 (CNN)。
(2)基於多層神經元的自編碼
神經網路 ,包括自編碼(Auto encoder)以及近年來受到廣泛關注的
稀疏編碼 兩類(Sparse Coding)。
(3)以多層自編碼神經網路的方式進行預訓練,進而結合鑑別信息進一步最佳化神經網路權值的
深度置信網路 (DBN)。
通過多層處理,逐漸將初始的“低層”特徵表示轉化為“高層”特徵表示後,用“簡單模型”即可完成複雜的分類等學習任務。由此可將深度學習理解為進行“特徵學習”(feature learning)或“表示學習”(representation learning)。
以往在機器學習用於現實任務時,描述樣本的特徵通常需由人類專家來設計,這成為“特徵工程”(feature engineering)。眾所周知,特徵的好壞對泛化性能有至關重要的影響,人類專家設計出好特徵也並非易事;特徵學習(
表征學習 )則通過機器學習技術自身來產生好特徵,這使機器學習向“全自動數據分析”又前進了一步。
近年來,研究人員也逐漸將這幾類方法結合起來,如對原本是以有監督學習為基礎的卷積神經網路結合自編碼神經網路進行無監督的預訓練,進而利用鑑別信息微調網路參數形成的
卷積 深度置信網路。與傳統的學習方法相比,深度學習方法預設了更多的模型參數,因此模型訓練難度更大,根據統計學習的一般規律知道,模型參數越多,需要參與訓練的數據量也越大。
20世紀八九十年代由於計算機計算能力有限和相關技術的限制,可用於分析的數據量太小,深度學習在模式分析中並沒有表現出優異的識別性能。自從2006年,Hinton等提出快速計算受限
玻耳茲曼機 (RBM)網路權值及偏差的CD-K算法以後,RBM就成了增加神經網路深度的有力工具,導致後面使用廣泛的DBN(由Hinton等開發並已被微軟等公司用於語音識別中)等深度網路的出現。與此同時,稀疏編碼等由於能自動從數據中提取特徵也被套用於深度學習中。基於局部數據區域的卷積神經網路方法近年來也被大量研究。
釋義 深度學習是機器學習的一種,而機器學習是實現人工智慧的必經路徑。深度學習的概念源於人工神經網路的研究,含多個隱藏層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分散式特徵表示。研究深度學習的動機在於建立模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本等。
含多個隱層的深度學習模型
從一個輸入中產生一個輸出所涉及的計算可以通過一個
流向圖 (flow graph)來表示:流向圖是一種能夠表示計算的圖,在這種圖中每一個節點表示一個基本的計算以及一個計算的值,計算的結果被套用到這個節點的子節點的值。考慮這樣一個計算集合,它可以被允許在每一個節點和可能的圖結構中,並定義了一個函式族。輸入節點沒有父節點,輸出節點沒有子節點。
這種流向圖的一個特別屬性是
深度 (depth):從一個輸入到一個輸出的最長路徑的長度。
傳統的
前饋神經網路 能夠被看作擁有等於層數的深度(比如對於輸出層為隱層數加1)。SVMs有深度2(一個對應於核輸出或者特徵空間,另一個對應於所產生輸出的線性混合)。
人工智慧研究的方向之一,是以所謂 “專家系統” 為代表的,用大量 “如果-就”(If - Then)規則定義的,自上而下的思路。
人工神經網路 (Artificial Neural Network),標誌著另外一種自下而上的思路。神經網路沒有一個嚴格的正式定義。它的基本特點,是試圖模仿大腦的
神經元 之間傳遞,處理信息的模式。
特點 區別於傳統的淺層學習,深度學習的不同在於:
(1)強調了模型結構的深度,通常有5層、6層,甚至10多層的隱層節點;
(2)明確了特徵學習的重要性。也就是說,通過逐層特徵變換,將樣本在原空間的特徵表示變換到一個新特徵空間,從而使分類或預測更容易。與人工規則構造特徵的方法相比,利用大數據來學習特徵,更能夠刻畫數據豐富的內在信息。
通過設計建立適量的神經元計算節點和多層運算層次結構,選擇合適的輸入層和輸出層,通過網路的學習和調優,建立起從輸入到輸出的函式關係,雖然不能100%找到輸入與輸出的函式關係,但是可以儘可能的逼近現實的關聯關係。使用訓練成功的網路模型,就可以實現我們對複雜事務處理的自動化要求。
深度學習典型模型 典型的深度學習模型有卷積神經網路(convolutional neural network)、DBN和堆疊自編碼網路(stacked auto-encoder network)模型等,下面對這些模型進行描述。
卷積神經網路模型 在無監督預訓練出現之前,訓練深度神經網路通常非常困難,而其中一個特例是卷積神經網路。卷積神經網路受視覺系統的結構啟發而產生。第一個卷積神經網路計算模型是在Fukushima的神經認知機中提出的,基於神經元之間的局部連線和分層組織圖像轉換,將有相同參數的神經元套用於前一層神經網路的不同位置,得到一種平移不變神經網路結構形式。後來,Le Cun等人在該思想的基礎上,用誤差梯度設計並訓練卷積神經網路,在一些模式識別任務上得到優越的性能。至今,基於卷積神經網路的模式識別系統是最好的實現系統之一,尤其在手寫體字元識別任務上表現出非凡的性能。
卷積神經網路模型
深度信任網路模型 DBN可以解釋為貝葉斯機率生成模型,由多層隨機隱變數組成,上面的兩層具有無向對稱連線,下面的層得到來自上一層的自頂向下的有向連線,最底層單元的狀態為可見輸入數據向量。DBN由若2F結構單元堆疊組成,結構單元通常為RBM(Restricted Boltzmann Machine,受限玻爾茲曼機)。堆疊中每個RBM單元的可視層神經元數量等於前一RBM單元的隱層神經元數量。根據深度學習機制,採用輸入樣例訓練第一層RBM單元,並利用其輸出訓練第二層RBM模型,將RBM模型進行堆疊通過增加層來改善模型性能。在無監督預訓練過程中,DBN編碼輸入到頂層RBM後,解碼頂層的狀態到最底層的單元,實現輸入的重構。RBM作為DBN的結構單元,與每一層DBN共享參數。
堆疊自編碼網路模型 堆疊自編碼網路的結構與DBN類似,由若干結構單元堆疊組成,不同之處在於其結構單元為自編碼模型(auto-en-coder)而不是RBM。自編碼模型是一個兩層的神經網路,第一層稱為編碼層,第二層稱為解碼層。
深度學習訓練過程 2006年,Hinton提出了在非監督數據上建立多層神經網路的一個有效方法,具體分為兩步:首先逐層構建單層神經元,這樣每次都是訓練一個單層網路;當所有層訓練完後,使用wake-sleep算法進行調優。
將除最頂層的其他層間的權重變為雙向的,這樣最頂層仍然是一個單層神經網路,而其他層則變為了圖模型。向上的權重用於“認知”,向下的權重用於“生成”。然後使用wake-sleep算法調整所有的權重。讓認知和生成達成一致,也就是保證生成的最頂層表示能夠儘可能正確的復原底層的節點。比如頂層的一個節點表示人臉,那么所有人臉的圖像應該激活這個節點,並且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。wake-sleep算法分為醒(wake)和睡(sleep)兩個部分。
wake階段:認知過程,通過外界的特徵和向上的權重產生每一層的抽象表示,並且使用梯度下降修改層間的下行權重。
sleep階段:生成過程,通過頂層表示和向下權重,生成底層的狀態,同時修改層間向上的權重。
自下上升的非監督學習 就是從底層開始,一層一層地往頂層訓練。採用無標定數據(有標定數據也可)分層訓練各層參數,這一步可以看作是一個無監督訓練過程,這也是和傳統神經網路區別最大的部分,可以看作是特徵學習過程。具體的,先用無標定數據訓練第一層,訓練時先學習第一層的參數,這層可以看作是得到一個使得輸出和輸入差別最小的三層神經網路的隱層,由於模型容量的限制以及稀疏性約束,使得得到的模型能夠學習到數據本身的結構,從而得到比輸入更具有表示能力的特徵;在學習得到n-l層後,將n-l層的輸出作為第n層的輸入,訓練第n層,由此分別得到各層的參數。
自頂向下的監督學習 就是通過帶標籤的數據去訓練,誤差自頂向下傳輸,對網路進行微調。基於第一步得到的各層參數進一步優調整個多層模型的參數,這一步是一個有監督訓練過程。第一步類似神經網路的隨機初始化初值過程,由於第一步不是隨機初始化,而是通過學習輸入數據的結構得到的,因而這個初值更接近全局最優,從而能夠取得更好的效果。所以深度學習的良好效果在很大程度上歸功於第一步的特徵學習的過程。
套用 計算機視覺 香港中文大學 的多媒體實驗室是最早套用深度學習進行計算機視覺研究的華人團隊。在世界級人工智慧競賽LFW(大規模人臉識別競賽)上,該實驗室曾力壓FaceBook奪得冠軍,使得人工智慧在該領域的識別能力首次超越真人。
語音識別 微軟研究人員通過與hinton合作,首先將RBM和DBN引入到語音識別聲學模型訓練中,並且在大辭彙量語音識別系統中獲得巨大成功,使得語音識別的錯誤率相對減低30%。但是,DNN還沒有有效的並行快速算法,很多研究機構都是在利用大規模數據語料通過GPU平台提高DNN聲學模型的訓練效率。
在國際上,IBM、google等公司都快速進行了DNN語音識別的研究,並且速度飛快。
國內方面,
阿里巴巴 、科大訊飛、百度、中科院自動化所等公司或研究單位,也在進行深度學習在語音識別上的研究。
自然語言處理等其他領域 很多機構在開展研究,2013年,Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean發表論文Efficient Estimation of Word Representations in Vector Space建立word2vector模型,與傳統的詞袋模型(bag of words)相比,word2vector能夠更好地表達語法信息。深度學習在自然語言處理等領域主要套用於機器翻譯以及語義挖掘等方面。
2020年,深度學習可以加速半導體封測創新。在降低重複性人工、提高良率、管控精度和效率、降低檢測成本方面,
AI 深度學習驅動的
AOI 具有廣闊的市場前景,但駕馭起來並不簡單。
2020年4月13日,英國《自然·機器智慧型》雜誌發表的一項醫學與
人工智慧 (AI)研究中,瑞士科學家介紹了一種人工智慧系統可以幾秒之內掃描
心血管 血流。這個深度學習模型有望讓臨床醫師在患者接受
核磁共振 掃描的同時,實時觀察血流變化,從而最佳化診斷工作流。