深度學習圖像搜尋與識別

深度學習圖像搜尋與識別

《深度學習圖像搜尋與識別》是2021年電子工業出版社出版的圖書,作者是潘攀。

基本介紹

  • 書名:深度學習圖像搜尋與識別
  • 作者:潘攀
  • 類別:深度學習與神經網路
  • 出版社:電子工業出版社
  • 出版時間:2021年4月
  • 頁數:228 頁
  • 定價:109 元 
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787121407499
內容簡介,圖書目錄,作者簡介,

內容簡介

圖像搜尋和識別是計算機視覺領域一個非常重要且基礎的題目。本書對構成圖像搜尋和識別系統的各個算法基礎模組一一做了介紹,並在*後一章以拍立淘為例說明了各個模組是怎樣一起工作的。
針對每個算法模組,本書不僅深入淺出地解釋了算法的工作原理,還對算法背後的演進機理和不同方法的特點進行了說明,在第2 至第8 章*後均提供了經典算法的PyTorch 代碼和相關參考資料。
本書既適合圖像搜尋和識別領域的初學者,也適合在某個單一任務方面有經驗但是想擴充知識面的讀者。

圖書目錄

1 概述 1
1.1 圖像搜尋與識別概述 1
1.2 圖像搜尋與識別技術的發展和套用 3
1.3 深度學習與圖像搜尋和識別 4
1.4 本書結構 6
2 深度卷積神經網路 8
2.1 概述 8
2.1.1 深度學習背景 8
2.1.2 深度卷積神經網路 9
2.2 CNN基礎操作 11
2.2.1 卷積操作 11
2.2.2 池化操作 12
2.2.3 全連線層 13
2.2.4 激活層 14
2.2.5 批歸一化層 14
2.2.6 小結 16
2.3 常見的CNN模型結構 16
2.3.1 網路結構超參數 17
2.3.2 單分支網路結構 19
2.3.3 多分支網路結構 24
2.3.4 小結 38
2.4 常見目標損失函式 38
2.5 本章總結 40
2.6 參考資料 40
3 圖像分類 43
3.1 概述 43
3.2 單標記分類 44
3.2.1 常用數據集及評價指標 44
3.2.2 損失函式 45
3.2.3 提升分類精度的實用技巧 47
3.2.4 基於搜尋的圖像分類 50
3.3 細粒度圖像分類 51
3.3.1 概述 51
3.3.2 基於部件對齊的細粒度分類方法 52
3.3.3 基於高階特徵池化的細粒度分類方法 55
3.3.4 小結 56
3.4 多標記圖像分類 56
3.4.1 概述 56
3.4.2 baseline:一階方法 58
3.4.3 標記關係建模 59
3.4.4 小結 60
3.5 代碼實踐 61
3.6 本章總結 63
3.7 參考資料 63
4 目標檢測 66
4.1 概述 66
4.2 兩階段目標檢測算法 68
4.2.1 候選框生成 69
4.2.2 特徵抽取 71
4.2.3 訓練策略 73
4.2.4 小結 76
4.3 單階段目標檢測算法 76
4.3.1 YOLO算法 76
4.3.2 SSD算法 78
4.3.3 RetinaNet算法 81
4.3.4 無錨點框檢測算法 83
4.3.5 小結 87
4.4 代碼實踐 88
4.5 本章總結 91
4.6 參考資料 92
5 圖像分割 95
5.1 概述 95
5.2 語義分割 96
5.2.1 概述 96
5.2.2 全卷積神經網路 97
5.2.3 空洞卷積 99
5.2.4 U-Net結構 100
5.2.5 條件隨機場關係建模 101
5.2.6 Look Wider to See Better 103
5.2.7 Atrous Spatial Pyramid Pooling算法 104
5.2.8 Context Encoding for Semantic Segmentation 104
5.2.9 多卡同步批歸一化 107
5.2.10 小結 107
5.3 實例分割 108
5.3.1 概述 108
5.3.2 FCIS 109
5.3.3 Mask R-CNN 111
5.3.4 Hybrid Task Cascade框架 113
5.3.5 小結 115
5.4 代碼實踐 115
5.5 本章總結 120
5.6 參考資料 120
6 特徵學習 124
6.1 概述 124
6.2 基於分類識別的特徵訓練 126
6.2.1 Sigmoid函式 127
6.2.2 Softmax函式 128
6.2.3 Weighted Softmax函式 129
6.2.4 Large-Margin Softmax函式 130
6.2.5 ArcFace函式 132
6.2.6 小結 133
6.3 基於度量學習的特徵訓練 134
6.3.1 Contrastive損失函式 135
6.3.2 Triplet損失函式 137
6.3.3 三元組損失函式在行人再識別中的套用 139
6.3.4 Quadruplet損失函式 140
6.3.5 Listwise Learning 141
6.3.6 組合損失函式 142
6.3.7 小結 142
6.4 代碼實踐 143
6.5 本章總結 143
6.6 參考資料 144
7 向量檢索 147
7.1 概述 147
7.2 局部敏感哈希算法 149
7.2.1 預處理 150
7.2.2 搜尋 151
7.2.3 小結 152
7.3 乘積量化系列算法 152
7.3.1 PQ算法 153
7.3.2 IVFPQ算法 155
7.3.3 OPQ算法 156
7.3.4 小結 157
7.4 圖搜尋算法 157
7.4.1 NSW算法 158
7.4.2 Kgraph算法 161
7.4.3 HNSW算法 163
7.4.4 圖搜尋算法實驗對比 165
7.4.5 小結 165
7.5 代碼實踐 166
7.6 本章總結 167
7.7 參考資料 168
8 圖文理解 171
8.1 概述 171
8.2 圖文識別 172
8.2.1 概述 172
8.2.2 數據集和評測標準 174
8.2.3 特徵融合方法 176
8.2.4 小結 182
8.3 圖文搜尋 182
8.3.1 概述 182
8.3.2 數據集和評測標準 184
8.3.3 Dual Attention Networks 185
8.3.4 Bottom-Up Attention 187
8.3.5 圖文搜尋的損失函式 189
8.3.6 小結 190
8.4 代碼實踐 191
8.5 本章總結 194
8.6 參考資料 194
9 阿里巴巴圖像搜尋識別系統 197
9.1 概述 197
9.2 背景介紹 198
9.3 圖像搜尋架構 200
9.3.1 類目預測模組 200
9.3.2 目標檢測和特徵聯合學習 201
9.3.3 圖像索引和檢索 205
9.4 實驗和結果分析 207
9.5 本章總結 210
9.6 參考資料 211

作者簡介

潘攀,花名啟磐,阿里巴巴集團資深算法專家,達摩院視覺理解&互動視覺負責人,負責電商領域的視覺技術研發。
拍立淘以圖搜圖的負責人和創始人之一,為拍立淘、淘寶直播&短視頻、虛擬主播、閒魚等業務提供核心技術。博士畢業於美國伊利諾伊大學芝加哥分校,研究領域包括深度學習和計算機視覺等。曾先後在美國三菱研究院和北京富士通研發中心從事視覺技術研發工作。已發表20餘篇論文,擁有10餘授權專利,並獲得WebVision分類,COCO檢測,DAVIS分割等國際計算機視覺競賽冠軍。

相關詞條

熱門詞條

聯絡我們