深度學習視頻理解

深度學習視頻理解

《深度學習視頻理解》是電子工業出版社出版圖書,作者是張皓

一本綜合介紹最新基於深度學習的視頻理解算法的參考書,通過理論與實踐相結合的形式詳細介紹了視頻理解中的識別、定位、特徵表示等諸多重點任務和方法

基本介紹

  • 中文名:深度學習視頻理解
  • 作者:張皓
  • 出版社:電子工業出版社
  • 出版時間:2021年10月
  • 頁數:324 頁
  • 定價:128 元
  • 開本:16 開
  • ISBN:9787121419805
內容簡介,圖書目錄,作者簡介,

內容簡介

對視頻理解的3個重要領域進行介紹,對於每個領域,本書不僅解釋了相關算法的原理,還梳理了算法演進的脈絡

圖書目錄

第1章 緒論 1
1.1 引言 1
1.2 本書內容 5
1.2.1 圖像分類 7
1.2.2 動作識別 9
1.2.3 時序動作定位 12
1.2.4 視頻 Embedding 14
1.3 本章小結 15
第2章 經典網路結構回顧 16
2.1 經典圖像分類網路 16
2.1.1 LetNet-5 16
2.1.2 AlexNet 18
2.1.3 VGGNet 22
2.1.4 GoogLeNet 24
2.1.5 Inception V2/V3 27
2.1.6 ResNet 28
2.1.7 preResNet 31
2.1.8 WRN 32
2.1.9 隨機深度網路 33
2.1.10 DenseNet 35
2.1.11 ResNeXt 36
2.1.12 SENet 39
2.1.13 MobileNet 41
2.1.14 MobileNet V2/V3 44
2.1.15 ShuffleNet 46
2.1.16 ShuffleNet V2 49
2.2 RNN、LSTM和GRU 51
2.2.1 RNN 51
2.2.2 梯度爆炸與梯度消失 52
2.2.3 LSTM 55
2.2.4 GRU 58
2.3 本章小結 60
第3章 基於2D卷積的動作識別 62
3.1 平均匯合 62
3.2 NetVLAD和NeXtVLAD 64
3.2.1 VLAD 65
3.2.2 NetVLAD 66
3.2.3 NeXtVLAD 71
3.2.4 NetFV和其他策略 75
3.3 利用RNN融合各幀特徵 77
3.3.1 2D卷積 + RNN的基本結構 78
3.3.2 對RNN結構進行改造 80
3.4 利用3D卷積融合各幀特徵 81
3.4.1 什麼是3D卷積 82
3.4.2 ECO 85
3.5 雙流法 87
3.5.1 什麼是光流 87
3.5.2 雙流法的基本網路結構 89
3.5.3 雙流法的網路結構最佳化 91
3.6 時序稀疏採樣 95
3.6.1 TSN 95
3.6.2 TSN的實現 98
3.6.3 ActionVLAD 99
3.6.4 StNet 100
3.6.5 TRN 102
3.7 利用iDT軌跡 104
3.7.1 DT和iDT 104
3.7.2 TDD 107
3.8 本章小結 108
第4章 基於3D卷積的動作識別 110
4.1 3D卷積基礎網路結構 110
4.1.1 C3D 110
4.1.2 Res3D/3D ResNet 113
4.1.3 LTC 116
4.2 I3D 118
4.2.1 5類動作識別網路 118
4.2.2 2D卷積擴展為3D卷積 119
4.2.3 5類網路對比 121
4.3 3D卷積的低秩近似 123
4.3.1 低秩近似的基本原理 124
4.3.2 FSTCN 125
4.3.3 P3D 127
4.3.4 R(2+1)D 129
4.3.5 S3D 132
4.4 TSM 135
4.5 3D卷積 + RNN 137
4.6 ARTNet 139
4.7 Non-Local 141
4.7.1 Non-Local 操作 141
4.7.2 Non-Local 動作識別網路 144
4.8 SlowFast 148
4.8.1 Slow分支和Fast分支 149
4.8.2 網路結構設計 151
4.9 3D卷積神經網路超參數設計 152
4.9.1 多格線訓練 152
4.9.2 X3D 154
4.10 本章小結 157
第5章 時序動作定位 159
5.1 基於滑動窗的算法 160
5.1.1 S-CNN 161
5.1.2 TURN 166
5.1.3 CBR 169
5.2 基於候選時序區間的算法 171
5.2.1 Faster R-CNN 回顧 172
5.2.2 R-C3D 175
5.2.3 TAL-Net 178
5.3 自底向上的時序動作定位算法 183
5.3.1 BSN 183
5.3.2 TSA-Net 187
5.3.3 BMN 191
5.4 對時序結構信息建模的算法 197
5.4.1 TAG 候選時序區間生成算法 198
5.4.2 SSN 網路結構 199
5.5 逐幀預測的算法 202
5.5.1 CDC層 203
5.5.2 CDC 網路結構 206
5.6 單階段算法 208
5.6.1 SSAD 208
5.6.2 SS-TAD 212
5.6.3 GTAN 214
5.7 本章小結 217
第6章 視頻Embedding 219
6.1 基於視頻內容的無監督 Embedding 220
6.1.1 編碼-解碼網路 221
6.1.2 視頻序列驗證 222
6.1.3 視頻和音頻信息 224
6.1.4 視頻和文本信息 225
6.2 Word2Vec 229
6.2.1 CBOW和Skip-Gram 229
6.2.2 分層 Softmax 234
6.2.3 負採樣 239
6.3 Item2Vec 247
6.3.1 Item2Vec 基本形式 247
6.3.2 Item2Vec的改進 249
6.4 基於圖的隨機遊走 252
6.4.1 DeepWalk 252
6.4.2 Node2Vec 254
6.5 結合一二階相似度 257
6.5.1 LINE 258
6.5.2 SDNE 262
6.6 基於圖的鄰居結點 265
6.6.1 GCN 265
6.6.2 GraphSAGE 269
6.6.3 GAT 272
6.7 基於多種信息學習視頻Embedding 274
6.7.1 召回模型 276
6.7.2 訓練 278
6.8 本章小結 280
附錄A 視頻處理常用工具 281
A.1 FFmpeg 281
A.2 OpenCV 284
A.3 Decord 291
A.4 Lintel 294
參考文獻 296

作者簡介

張皓,畢業於南京大學計算機系周志華教授領導的機器學習與數據挖掘研究所(LAMDA),導師為吳建鑫教授,研究方向為深度學習和計算機視覺,曾獲國家獎學金、江蘇省三好學生等榮譽。發表論文累計被引超過 190 次,合譯《模式識別》一書,曾獲 2016 年ECCV視頻表象性格分析競賽世界冠軍。
現任騰訊線上視頻研究員,專注於騰訊視頻等場景下的相關視頻理解任務。曾任騰訊優圖實驗室研究員,為“微信看一看”等場景提供相關視頻理解能力。

相關詞條

熱門詞條

聯絡我們