生成對抗結構GAN (Generative adversarial networks)已經成為人工智慧學界一個熱門的研究方向,GAN的基本思想源自博弈論的二人零和博弈,由一個生成器和一個判別器構成,通過對抗學習的方式來訓練,目的是估測數據樣本的潛在分布並生成新的數據樣本,在圖像和視覺計算、語音和語言處理、信息安全、棋類比賽等領域,GAN正在被廣泛研究,具有巨大的套用前景。
基本介紹
- 中文名:生成對抗結構
- 外文名:Generative adversarial networks
- 簡稱:GAN
- 學科:人工智慧
- 基本思想:源自博弈論的二人零和博弈
- 構成:一個生成器和一個判別器
概述,GAN的套用領域,圖像和視覺領域,語音和語言領域,GAN的意義和優點,
概述
生成對抗結構GAN 是Goodfellow等在2014年提出的一種生成式模型,GAN在結構上受博弈論中的二人零和博弈(即二人的利益之和為零,一方的所得正是另一方的所失)的啟發,系統由一個生成器和一個判別器構成,生成器捕捉真實數據樣本的潛在分布,並生成新的數據樣本;判別器是一個二分類器,判別輸入是真實數據還是生成的樣本,生成器和判別器均可以採用研究火熱的深度神經網路。GAN的最佳化過程是一個極小極大博弈問題,最佳化目標是達到納什均衡,使生成器估測到數據樣本的分布。
在當前的人工智慧熱潮下,GAN的提出滿足了許多領域的研究和套用需求,同時為這些領域注入了新的發展動力,GAN已經成為人工智慧學界一個熱門的研究方向,著名學者LeCun甚至將其稱為“過去十年間機器學習領域最讓人激動的點子”,圖像和視覺領域是對GAN研究和套用最廣泛的一個領域,已經可以生成數字、人臉等物體對象,構成各種逼真的室內外場景,從分割圖像恢復原圖像,給黑白圖像上色,從物體輪廓恢復物體圖像,從低解析度圖像生成高解析度圖像等。此外,GAN已經開始被套用到語音和語言處理、電腦病毒監測、棋類比賽程式等問題的研究中。
GAN的套用領域
作為一個具有“無限”生成能力的模型,GAN的直接套用就是建模,生成與真實數據分布一致的數據樣本,例如可以生成圖像、視頻等。GAN可以用於解決標註數據不足時的學習問題,例如無監督學習、半監督學習等,GAN還可以用於語音和語言處理,例如生成對話、由文本生成圖像等。
圖像和視覺領域
GAN能夠生成與真實數據分布一致的圖像,一個典型套用來自Twitter公司,Ledig等提出利用GAN來將一個低清模糊圖像變換為具有豐富細節的高清圖像。
GAN也開始用於生成自動駕駛場景,Santana等提出利用GAN來生成與實際交通場景分布一致的圖像,再訓練一個基於RNN的轉移模型實現預測的目的。GAN可以用於自動駕駛中的半監督學習或無監督學習任務,還可以利用實際場景不斷更新的視頻幀來實時最佳化GAN的生成器。
Gou等提出利用仿真圖像和真實圖像作為訓練樣本來實現人眼檢測,但是這種仿真圖像與真實圖像存在一定的分布差距。Shrivastava等提出一種基於GAN的方法(稱為SimGAN),利用無標籤真實圖像來豐富細化仿真圖像,使得合成圖像更加真實。引入一個自正則化項來實現最小化合成誤差並最大程度保留仿真圖像的類別,同時利用加入的局部對抗損失函式來對每個局部圖像塊進行判別,使得局部信息更加豐富。
語音和語言領域
已經有一些關於GAN的語音和語言處理文章。Li等提出用GAN來表征對話之間的隱式關聯性,從而生成對話文本。Zhang等提出基於GAN的文本生成,他們用CNN作為判別器,判別器基於擬合LSTM的輸出,用矩匹配來解決最佳化問題;在訓練時,和傳統更新多次判別器參數再更新一次生成器不同,需要多次更新生成器再更新CNN判別器。SeqGAN基於策略梯度來訓練生成器G,策略梯度的反饋獎勵信號來自於生成器經過蒙特卡洛搜尋得到,實驗表明SeqGAN在語音、詩詞和音樂生成方面可以超過傳統方法。Reed等提出用GAN基於文本描述來生成圖像,文本編碼被作為生成器的條件輸入,同時為了利用文本編碼信息,也將其作為判別器特定層的額外信息輸入來改進判別器,判別是否滿足文本描述的準確率,實驗結果表明生成圖像和文本描述具有較高相關性。
GAN的意義和優點
GAN對於生成式模型的發展具有重要的意義,GAN作為一種生成式方法,有效解決了可建立自然性解釋的數據的生成難題,尤其對於生成高維數據,所採用的神經網路結構不限制生成維度,大大拓寬了生成數據樣本的範圍.所採用的神經網路結構能夠整合各類損失函式,增加了設計的自由度。GAN的訓練過程創新性地將兩個神經網路的對抗作為訓練準則並且可以使用反向傳播進行訓練,訓練過程不需要效率較低的馬爾科夫鏈方法,也不需要做各種近似推理,沒有複雜的變分下界,大大改善了生成式模型的訓練難度和訓練效率,GAN的生成過程不需要繁瑣的採樣序列,可以直接進行新樣本的採樣和推斷,提高了新樣本的生成效率,對抗訓練方法摒棄了直接對真實數據的複製或平均,增加了生成樣本的多樣性.GAN在生成樣本的實踐中,生成的樣本易於人類理解。例如,能夠生成十分銳利清晰的圖像,為創造性地生成對人類有意義的數據提供了可能的解決方法。
GAN除了對生成式模型的貢獻,對於半監督學習也有啟發,GAN學習過程中不需要數據標籤,雖然GAN提出的目的不是半監督學習,但是GAN的訓練過程可以用來實施半監督學習中無標籤數據對模型的預訓練過程,具體來說,先利用無標籤數據訓練GAN,基於訓練好的GAN對數據的理解,再利用小部分有標籤數據訓練判別器,用於傳統的分類和回歸任務。