生成對抗網路GAN:原理與實踐

《生成對抗網路GAN:原理與實踐》是2022年機械工業出版社出版的圖書。

基本介紹

  • 中文名:生成對抗網路GAN:原理與實踐
  • 出版時間:2022年12月1日
  • 出版社:機械工業出版社
  • ISBN:9787111712237
內容簡介,圖書目錄,作者簡介,

內容簡介

這是一本系統講解GAN理論、模型、常見問題,並為視覺和語音領域的大部分套用場景提供GAN解決方案和綜合實例的著作。
作者在人工智慧領域積累頗深,這本書得到了前阿里巴巴達摩院華先勝和中國科學院自動化所劉成林的推薦。前4章有針對性地講解GAN的理論,幫助讀者夯實基礎;後8章講解套用,用大量經典的模型和9個案例,為8個套用場景提供了GAN解決方案。
第1~4章首先介紹了無監督生成模型、顯式生成模型、以GAN為代表的隱式生成模型等各種生成模型的理論和原理;然後講解了GAN中的目標函式及其數學原理、GAN在訓練中的常見問題和相應解決方案、GAN的評價指標和可視化等;
第5~12章分別講解了圖像生成GAN的各類模型與套用、圖像翻譯GAN的各類模型與套用、人臉圖像編輯GAN的各類模型與套用、圖像質量增強GAN的各類模型與套用、三維圖片與視頻生成GAN的各類模型與套用、通用的圖像編輯GAN框架、對抗攻擊以及GAN在其中的套用、GAN在語音信號處理中的實戰套用。
全書內容理論體系完善,GAN的目標最佳化、訓練、評估等內容同類書中極少提及;內容豐富、循序漸進,覆蓋視覺和語音中的絕大部分套用場景;實戰性強,9個綜合案例,提供案例原始碼和解讀,以及實驗數據和實驗結果對比分析;圖文並茂,包含大量原創圖表,可讀性強。

圖書目錄

前言
第1章 生成模型1 
1.1 無監督學習與生成模型1
1.1.1 監督學習與無監督學習1
1.1.2 判別模型與生成模型3
1.1.3 無監督生成模型4
 1.2 顯式與隱式生成模型5
1.2.1 極大似然估計法6
1.2.2 完全可見置信網路8
1.2.3 流模型13
1.2.4 變分自編碼器18
1.2.5 玻爾茲曼機24
1.2.6 隱式生成模型27
 參考文獻28
第2章 目標函式最佳化29 
2.1 GAN29
2.1.1 GAN概述30
2.1.2 GAN模型30
2.1.3 GAN的本質33
 2.2 LSGAN35
 2.3 EBGAN40
 2.4 f GAN42
 2.5 WGAN45
2.5.1 分布度量45
2.5.2 WGAN目標函式48
 2.6 Loss-sensitive GAN51
 2.7 WGAN-GP53
 2.8 IPM54
2.8.1 IPM概念55
2.8.2 基於IPM的GAN55
2.8.3 IPM與f散度57
 2.9 其他目標函式57
2.9.1 RGAN57
2.9.2 BEGAN58
 參考文獻59
第3章 訓練技巧61 
3.1 GAN訓練的3個問題61
3.1.1 梯度消失61
3.1.2 目標函式不穩定性63
3.1.3 模式崩潰64
 3.2 退火噪聲65
 3.3 譜正則化66
3.3.1 特徵值與奇異值67
3.3.2 譜範數與1-Lipschitz限制68
 3.4 一致最佳化71
3.4.1 歐拉法71
3.4.2 GAN動力學系統73
3.4.3 一致最佳化算法76
 3.5 GAN訓練技巧77
3.5.1 特徵匹配77
3.5.2 歷史均值78
3.5.3 單側標籤平滑78
3.5.4 虛擬批正則化79
3.5.5 TTUR79
3.5.6 0中心梯度80
3.5.7 其他建議80
 3.6 模式崩潰解決方案80
3.6.1 unrolledGAN82
3.6.2 DRAGAN85
3.6.3 Minibatch判別器與PGGAN86
3.6.4 MADGAN與
MADGAN-Sim87
3.6.5 VVEGAN89
 參考文獻91
第4章 評價指標與可視化93 
4.1 評價指標93
4.1.1 評價指標的要求93
4.1.2 IS系列94
4.1.3 FID96
4.1.4 MMD97
4.1.5 Wasserstein距離98
4.1.6 近鄰分類器98
4.1.7 GANtrain與GANtest99
4.1.8 NRDS100
4.1.9 圖像質量度量101
4.1.10 平均似然值102
 4.2 GAN可視化103
4.2.1 設定模型103
4.2.2 訓練模型105
4.2.3 可視化數據107
4.2.4 樣例演示109
 參考文獻110
第5章 圖像生成111 
5.1 圖像生成套用111
5.1.1 訓練數據擴充111
5.1.2 數據質量提升112
5.1.3 內容創作112
 5.2 深度卷積GAN113
5.2.1 DCGAN原理114
5.2.2 DCGAN的思考115
 5.3 條件GAN117
5.3.1 有監督條件GAN117
5.3.2 無監督條件GAN118
5.3.3 半監督條件GAN119
5.3.4 複雜形式的條件輸入119
 5.4 多尺度GAN121
5.4.1 LAPGAN121
5.4.2 Progressive GAN123
 5.5 屬性GAN124
5.5.1 顯式屬性GAN124
5.5.2 隱式屬性GAN125
 5.6 多判別器與生成器GAN133
5.6.1 多判別器GAN133
5.6.2 多生成器GAN134
 5.7 數據增強與仿真GAN135
5.7.1 數據增強GAN135
5.7.2 數據仿真GAN136
 5.8 DCGAN圖像生成實踐137
5.8.1 項目解讀137
5.8.2 實驗結果144
 5.9 StyleGAN人臉圖像生成實踐147
5.9.1 項目簡介147
5.9.2 模型解讀147
5.9.3 預訓練模型的使用157
5.9.4 小結161
 參考文獻161
第6章 圖像翻譯163 
6.1 圖像翻譯基礎163
6.1.1 什麼是圖像翻譯163
6.1.2 圖像翻譯任務的類型164
 6.2 有監督圖像翻譯模型166
6.2.1 Pix2Pix166
6.2.2 Pix2PixHD167
6.2.3 Vid2Vid168
 6.3 無監督圖像翻譯模型168
6.3.1 基於域遷移與域對齊的無監督模型168
6.3.2 基於循環一致性約束的無監督模型172
 6.4 圖像翻譯模型的關鍵改進175
6.4.1 多領域轉換網路StarGAN175
6.4.2 豐富圖像翻譯模型的生成模式177
6.4.3 給模型添加監督信息179
 6.5 基於Pix2Pix模型的圖像上色
實踐180
6.5.1 數據處理180
6.5.2 模型代碼解讀181
6.5.3 模型訓練與測試189
6.5.4 小結193
 參考文獻194
第7章 人臉圖像編輯195 
7.1 人臉表情編輯195
7.1.1 表情編輯問題195
7.1.2 關鍵點控制的表情編輯模型196
 7.2 人臉年齡編輯197
7.2.1 年齡編輯問題197
7.2.2 基於潛在空間的條件對抗自編碼模型197
 7.3 人臉姿態編輯198
7.3.1 姿態編輯問題198
7.3.2 基於3DMM的姿態編輯模型199
 7.4 人臉風格編輯200
7.4.1 風格編輯問題201
7.4.2 基於注意力機制的風格化模型201
 7.5 人臉妝造編輯203
7.5.1 妝造編輯問題204
7.5.2 基於GAN的妝造遷移算法204
 7.6 人臉換臉編輯206
7.6.1 身份編輯問題206
7.6.2 基於編解碼器的Deepfakes換臉算法206
 7.7 通用的人臉屬性編輯207
7.7.1 StyleGAN人臉編輯的關鍵問題207
7.7.2 潛在編碼向量的求解208
 7.8 基於StyleGAN模型的人臉屬性編輯實踐209
7.8.1 人臉重建209
7.8.2 人臉屬性混合與插值219
7.8.3 人臉屬性編輯221
7.8.4 小結228
 參考文獻228
第8章 圖像質量增強230 
8.1 圖像降噪230
8.1.1 圖像降噪問題230
8.1.2 基於GAN的圖像去噪框架231
 8.2 圖像去模糊232
8.2.1 圖像去模糊問題232
8.2.2 基於GAN的圖像去模糊框架233
 8.3 圖像色調映射234
8.3.1 圖像色調映射問題235
8.3.2 圖像色調映射數據集236
8.3.3 基於GAN的圖像色調映射框架236
 8.4 圖像超分辨239
8.4.1 圖像超分辨問題240
8.4.2 基於GAN的圖像超分辨框架240
 8.5 圖像修復243
8.5.1 圖像修復基礎243
8.5.2 基於GAN的圖像修復框架244
 8.6 基於SRGAN的人臉超分重建實踐247
8.6.1 項目解讀247
8.6.2 模型訓練254
8.6.3 模型測試258
8.6.4 小結260
 參考文獻260
第9章 三維圖像與視頻生成262 
9.1 三維圖像與視頻生成套用262
9.1.1 三維圖像生成套用262
9.1.2 視頻生成與預測套用263
 9.2 三維圖像生成框架264
9.2.1 一般三維圖像生成框架264
9.2.2 二維圖到三維圖的預測框架265
 9.3 視頻生成與預測框架266
9.3.1 基本的Video-GAN266
9.3.2 多階段的MD-GAN267
9.3.3 內容動作分離的
MoCoGAN268
 參考文獻270
第10章 通用圖像編輯271 
10.1 圖像深度編輯271
10.1.1 深度與景深271
10.1.2 圖像景深編輯框架274
 10.2 圖像融合276
10.2.1 圖像融合問題276
10.2.2 基於GAN的圖像融合框架277
 10.3 互動式圖像編輯278
10.3.1 互動式圖像編輯框架278
10.3.2 基於GAN的互動式圖像編輯框架279
 10.4 展望280
 參考文獻280
第11章 對抗攻擊282 
11.1 對抗攻擊及防禦算法282
11.1.1 對抗攻擊概述282
11.1.2 常用攻擊算法284
11.1.3 常用防禦算法287
 11.2 基於GAN的對抗樣本生成289
11.2.1 Perceptual-SensitiveGAN289
11.2.2 Natural GAN292
11.2.3 AdvGAN294
 11.3 基於GAN的對抗攻擊防禦296
11.3.1 APEGAN296
11.3.2 DefenseGAN297
 11.4 對抗攻擊工具包AdvBox297
11.4.1 對分類器的攻擊297
11.4.2 高斯噪聲對抗防禦301
11.4.3 其他示例程式301
 參考文獻305
第12章 語音信號處理306 
12.1 基於GAN的語音增強306
12.1.1 項目簡介306
12.1.2 SEGAN模型307
12.1.3 SEGAN訓練和
測試313
 12.2 基於GAN的語音轉換315
12.2.1 項目簡介315
12.2.2 WORLD語音合成工具316
12.2.3 CycleGAN-VC2模型317
12.2.4 CycleGAN-VC2訓練322
12.2.5 CycleGAN-VC2測試325
 12.3 基於GAN的語音生成325
12.3.1 項目簡介326
12.3.2 WaveGAN模型326
12.3.3 WaveGAN訓練和
測試332
 參考文獻333

作者簡介

言有三(本名:龍鵬)
資深人工智慧技術專家,曾就職於奇虎360人工智慧研究院和陌陌科技深度學習實驗室,服務於月活10億級的AI產品。現為有三教育科技有限公司創始人,致力於提供人工智慧領域的項目解決方案設計和研發服務。在人工智慧技術領域有非常深厚的積累,擅長深度學習與計算機視覺,尤其是深度學習模型的設計與最佳化、生成對抗網路、人臉圖像算法、攝影圖像算法等。
阿里雲MVP,華為雲MVP,負責阿里雲深度學習課程搭建,在數十所高校進行技術分享與課程建設。技術社區“有三AI”的創始人,撰寫了超過200萬字的原創技術文章。
樂於分享,善於總結,獨自出版過4本深度學習領域的前沿著作:
《深度學習之圖像識別:核心技術與案例實戰》(機械工業出版社2019.4)
《深度學習之模型設計:核心算法與案例實踐》(電子工業出版社2020.6)
《深度學習之人臉圖像處理:核心算法與案例實戰》(機械工業出版社2020.7)
《深度學習之攝影圖像處理:核心算法與案例精粹》(人民郵電出版社2021.4)
郭曉洲(筆名:小米粥)
博士研究生,畢業於中國科學院半導體研究所,主要研究方向為生成模型、語音信號處理,具有紮實的理論基礎和豐富的算法落地經驗,發表多篇SCI、EI相關論文。技術社區“有三AI”專欄作者,負責“GAN的最佳化”、“生成模型”、“語音信號處理”等專欄的硬核技術輸出。

相關詞條

熱門詞條

聯絡我們