基於深度學習的圖像語義分割技術

基於深度學習的圖像語義分割技術

《基於深度學習的圖像語義分割技術》是2019年12月01日海洋出版社出版的圖書,作者是田萱,王亮,孟祥光。

基本介紹

  • 中文名:基於深度學習的圖像語義分割技術
  • 作者:田萱,王亮,孟祥光
  • 出版時間:2019年12月01日
  • 出版社海洋出版社
  • 頁數:116 頁
  • ISBN:9787521003543
  • 定價:68 元
  • 開本:16 開
  • 裝幀:平裝
內容簡介,目錄,

內容簡介

圖像語義分割(Image Semantic Segmentation,ISS)是涉及計算機視覺、模式識別與人工智慧的研究熱點,基於深度學習的圖像語義分割(Image Semantic Segmentation based on Deep Learning,ISSbDL)方法利用深層計算模型來學習抽象的圖像特徵,促進了ISS 相關研究的發展。
在ISSbDL方法中,基於編碼器.解碼器模型的ISS方法存在像素空間位置信息丟失、無法有效利用圖像上下文等問題。本文對編碼器.解碼器模型進行了兩點改進並以這兩點改進為基礎,設計了一種“密集連線帶孔空間金字塔池化反卷積網路”(Densely Connected Atrous Spatial Pyramid Pooling Deconvlution Network,DenseASPPDeconvNet)用於圖像語義分割。本書的主要貢獻如下:
(1)對ISSbDL的經典方法與研究現狀進行系統性總結和梳理。
對基於深度學習的圖像語義分割的經典方法與研究現狀進行系統分類、梳理和總結。根據分割特點和處理粒度的不同,將基於深度學習的圖像語義分割方法分為基於區域分類的圖像語義分割方法和基於像素分類的圖像語義分割方法。把基於區域分類的圖像語義分割方法細分為2類子方法,把基於像素分類的圖像語義分割方法進一步細分為7類不同的方法。對每類方法的代表性算法進行了詳細地分析介紹,並詳細總結了每類方法的基本思想和優缺點,系統闡述了深度學習技術對圖像語義分割領域的貢獻。
(2)改進基於編碼器一解碼器模型的ISS算法,設計出DenseASPPDeconvNet網路模型。
為提取更多的圖像特徵和圖像上下文,對基於編碼器一解碼器模型的ISS算法中的編碼器模組進行了兩點改進:①以更密集的連線方式連線多個帶孔卷積,最佳化初級特徵提取器,提出“密集連線帶孔卷積網路”(Densely Connected Atrous Convolution Network,DenseAtrous CNet),使用DenseAtrousCNet代替卷積神經網路(Convolutional Neural Networks,CNN)作為初級特徵提取器,能夠捕獲更多的稠密特徵。②對傳統帶孔空間金字塔池化模型進行最佳化,以密集連線組合數個不同帶孔率的帶孔卷積,對稠密特徵圖進行融合,提出“密集連線全局平均帶孔金字塔池化”(Densely Connected Global Atrous Spatial Pyramid Pooling,DenseGlobalASPP)模型,使用DenseGlobalASPP代替帶孔空間金字塔池化(Atrous Spatial Pyramid Pooling)作為特徵再編碼器,對初級特徵進行再編碼,以捕獲更多的全局語義信息和圖像上下文。
基於以上兩點改進,對傳統的編碼器一解碼器模型的網路結構進行最佳化,設計了一種“密集連線帶孔空間金字塔池化反卷積網路”(DenseASPPDeconvNet網路模型)。DenseASPPDeconvNet是一種非對稱的網路結構,其編碼器模組使用DenseAtrousCNet進行初級特徵提取,使用DenseGobalASPP對初級特徵進行再編碼,解碼器模組使用反卷積來逐步恢復特徵圖的解析度。DenseASPPDeconvNet能夠捕獲更多的稠密特徵圖,擴大網路的感受野,捕獲更多的圖像上下文,進而提高ISS的分割準確率。
實驗部分使用PASCAL VOC 2012公開數據集進行實驗和測試:將Dense ASPPDeconvNet 與其他經典網路模型進行詳細地分析與對比,證明了DenseASPPDeconvNet能夠提升ISS 的性能,具有一定的合理性和優越性。將DenseAtrousCNet、DenseASPPD econvNet分別與CNN、ASPP進行對比,證明了DenseAtrousCNet與DenseASPPDeconvNet擁有較好的特徵提取效果,能夠捕獲更多的圖像特徵,有助於提升ISS的性能。

目錄

1 緒論
1.1 研究背景與意義
1.2 國內外研究狀況與發展趨勢
1.2.1 傳統的圖像語義分割技術
1.2.2 基於深度學習的圖像語義分割技術
1.3 主要工作與研究成果
1.4 本書的主要內容與結構安排
2 深度學習和其他相關技術介紹
2.1 引言
2.2 深度神經網路基本類型
2.2.2 循環神經網路
2.2.3 生成對抗網路
2.3 深度學習經典網路模型
2.3.1 LeNet-5網路模型
2.3.2 AlexNet網路模型
2.3.3 VGGNet網路模型
2.3.4 ResNet網路模型
2.3.5 GoogLeNet網路模型
2.3.6 Siamese網路模型
2.3.7 MobileNets網路模型
2.4 遷移學習
2.4.1 遷移學習的基本類型
2.4.2 遷移學習的主要優點
2.4.3 遷移學習在圖像語義分割領域的套用
2.5 本章小節
3 基於深度學習的圖像語義分割方法綜述
3.1 引言
3.2 相關背景及早期研究介紹
3.3 基於區域分類的圖像語義分割方法
3.3.1 基於候選區域的圖像語義分割方法
3.3.2 基於分割掩膜的圖像語義分割方法
3.4 基於像素分類的圖像語義分割方法
3.4.1 基於FCN的圖像語義分割方法
3.4.2 基於最佳化卷積結構的圖像語義分割方法
3.4.3 基於編碼器一解碼器模型的圖像語義分割方法
3.4.4 基於機率圖模型的圖像語義分割方法
3.4.5 基於特徵融合的圖像語義分割方法
3.4.6 基於RNN的圖像語義分割方法
3.4.7 基於GAN的圖像語義分割方法
3.5 本章小結
4 一種改進“編碼器一解碼器模型”的圖像語義分割算法
4.1 引言
4.2 一種改進的密集連線帶孔卷積網路
4.2.1 密集卷積網路
4.2.2 帶孔卷積
4.2.3 密集連線帶孔卷積網路
……
5 算法實驗與結果分析
6 總結與展望
參考文獻

相關詞條

熱門詞條

聯絡我們