圖像識別——深度學習模型理論與實戰

《圖像識別——深度學習模型理論與實戰》是2024年清華大學出版社出版的圖書,作者是於浩文。

基本介紹

  • 中文名:圖像識別——深度學習模型理論與實戰
  • 作者:於浩文
  • 出版時間:2024年2月
  • 出版社:清華大學出版社
  • ISBN:9787302652656 
  • 定價:79 元
內容簡介,圖書目錄,

內容簡介

本書專注於深度學習在圖像識別領域的套用。不僅詳細講解了各種模型的理論知識,還為讀者提供了豐富的實踐操作指南。旨在為讀者提供一個從基礎到高級的全方位指導,涵蓋2012至2023間的經典和前沿模型。 本書在第1章介紹人工智慧在計算機視覺領域的現狀,第2章和第3章是編程基礎章節,有基礎的同學可以跳過閱讀。第4章和第5章詳細講解卷積算法和基於卷積算法具有里程碑意義的模型。第6章介紹工業中常用的輕量級卷積模型。第7章和第8章對現階段前沿的圖像識別模型進行講解。

圖書目錄

目錄
本書源碼
附贈資源
第1章人工智慧介紹
1.1什麼是人工智慧
1.2人工智慧的3次浪潮
1.2.1人工智慧的第1次浪潮
1.2.2人工智慧的第2次浪潮
1.2.3人工智慧的第3次浪潮
1.3人工智慧發展的必備三要素
1.3.1人工智慧發展的基石: 數據
1.3.2人工智慧發展的動力: 算法
1.3.3人工智慧發展的手段: 算力
1.4人工智慧的美好願景
1.4.1烏鴉與鸚鵡的啟示
1.4.2人工智慧到底有多智慧型
第2章深度學習環境配置
2.1專業名稱和配置方案介紹
2.1.1專業名稱介紹
2.1.2Windows配置PyTorch深度學習環境初級方案
2.1.3Windows配置PyTorch深度學習環境進階方案
2.2Anaconda配置Python和PyTorch
2.2.1Anaconda簡介
2.2.2Windows系統安裝Anaconda
2.2.3Linux系統安裝Anaconda
2.2.4Anaconda的快速入門
2.2.5Anaconda配置PyTorch深度學習環境
2.3配置VS Code和Jupyter的Python環境
2.3.1VS Code下載與安裝
2.3.2VS Code配置Python環境
2.3.3Jupyter Notebook中配置Python環境
2.4配置Windows 11和Linux雙系統
2.4.1Windows 11配置WSL 2的詳細步驟
2.4.2Windows 11配置WSL 2的常見錯誤
2.4.3VS Code遠程連線WSL 2
2.5配置Docker深度學習開發環境
2.5.1Docker安裝的先決條件
2.5.2安裝Docker Desktop
2.5.3拉取Docker鏡像
2.5.4快速入門Docker終端的使用
2.5.5VS Code使用Docker的快速入門
第3章程式語言快速入門
3.1Python的起源、歷史和套用場景
3.1.1Python的起源
3.1.2Python的歷史
3.1.3Python的套用場景
3.2Python的基礎知識
3.2.1注釋
3.2.2六大數據類型
3.3Python的判斷與循環語句
3.3.1比較運算符和關係運算符
3.3.2判斷語句
3.3.3循環語句
3.4Python中的函式
3.4.1函式的定義
3.4.2函式中的變數
3.4.3高級函式用法
3.4.4Python中的檔案操作函式
3.5Python中的面向對象編程
3.5.1面向對象編程 VS 面向過程編程
3.5.2類與對象
3.5.3魔法方法
3.5.4類屬性和類方法
3.5.5繼承
3.5.6多態
3.5.7模組的介紹和製作
3.5.8Python中的包和庫
3.5.9Python的pip命令
3.6PyTorch的基礎知識
3.6.1PyTorch的基本數據類型
3.6.2張量的索引、切片與維度變換
3.6.3張量的拼接、拆分與統計
第4章卷積神經網路理論基礎
4.1全連線神經網路
4.1.1線性模型
4.1.2回歸與分類
4.1.3感知機模型
4.1.4激活函式
4.1.5維度詛咒
4.1.6過擬合與欠擬合
4.1.7正則
4.1.8數據增強
4.1.9數值不穩定性
4.2基於梯度下降的最佳化算法
4.2.1最佳化算法的數學基礎
4.2.2最佳化器
4.3卷積神經網路
4.3.1卷積神經網路的計算
4.3.2卷積的設計思想
4.3.3卷積對圖像的特徵提取過程
4.3.4卷積模型實現圖像識別
4.3.5卷積神經網路的層級結構和感受野
4.3.6第1個卷積神經網路模型: LeNet
第5章那些年我們追過的ImageNet圖像識別大賽
5.1ImageNet
5.1.1什麼是ImageNet
5.1.2ImageNet數據集
5.1.3ImageNet圖像分類大賽
5.2AlexNet: 拉開深度學習序幕
5.2.1AlexNet理論
5.2.2AlexNet代碼
5.2.3AlexNet模型小結
5.3ZFNet: 開創卷積模型的可解釋性
5.3.1ZFNet簡介
5.3.2對卷積計算結果的可視化
5.3.3網路中對不同特徵的學習速度
5.3.4圖片平移、縮放、旋轉對CNN的影響
5.3.5ZFNet的改進點
5.3.6遮擋對卷積模型的影響
5.3.7ZFNet的調參實驗
5.3.8ZFNet的模型代碼實現
5.3.9ZFNet模型小結
5.4VGGNet: 探索深度的力量
5.4.1VGGNet模型總覽
5.4.2網路貢獻總結
5.4.3VGGNet的模型代碼實現
5.4.4VGGNet模型小結
5.5GoogLeNet: 探索寬度的力量
5.5.1GoogLeNet V1
5.5.2GoogLeNet V2
5.5.3GoogLeNet V3
5.5.4GoogLeNet V4
5.5.5GoogLeNet V5
5.6ResNet: 神來之“路”
5.6.1深度學習網路退化問題
5.6.2殘差連線
5.6.3ResNet模型的網路結構
5.6.4殘差的調參
5.6.5殘差連線的淵源
5.6.6殘差連線有效性的解釋
5.6.7ResNet的變體
5.6.8ResNeXt
5.7DenseNet: 特徵復用
5.7.1模型設計動機
5.7.2DenseNet模型結構
5.7.3DenseNet模型比較
5.8SENet: 通道維度的注意力機制
5.8.1SENet模型總覽
5.8.2SE模組
5.8.3SENet效果
5.8.4SENet模型小結
第6章易於套用部署的輕量卷積模型
6.1MobileNet V1: 為移動端量身打造的輕量級模型
6.1.1模型設計動機
6.1.2深度可分離卷積
6.1.3MBConv模組
6.1.4MobileNet V1模型結構
6.1.5MobileNet V1模型小結
6.2MobileNet V2: 翻轉殘差與線性瓶頸的效率變革
6.2.1逆殘差結構
6.2.2線性瓶頸結構
6.2.3MobileNet V2模型結構
6.2.4MobileNet V2模型小結
6.3MobileNet V3: 結合自動搜尋的移動端網路標桿
6.3.1最佳化網路深層結構
6.3.2hswish激活函式
6.3.3SENet
6.3.4MobileNet V3模型結構
6.3.5MobileNet V3模型小結
6.4ShuffleNet V1: 重新洗牌的高效卷積網路
6.4.1組卷積
6.4.2通道打散操作
6.4.3ShuffleNet模組
6.4.4ShuffleNet V1模型結構
6.4.5ShuffleNet V1模型小結
6.5ShuffleNet V2: 輕量級設計的網路最佳化版
6.5.1ShuffleNet V2模型設計動機
6.5.2輕量級網路設計的5個經驗總結
6.5.3ShuffleNet V2模型結構
6.5.4ShuffleNet V2模型小結
6.6EfficientNet V1: 縮放模型的全新視角
6.6.1EfficientNet V1模型設計動機
6.6.2深度學習模型的3種縮放方法
6.6.3EfficientNet V1模型的縮放比率
6.6.4EfficientNet V1模型結構
6.6.5EfficientNet V1模型小結
6.7EfficientNet V2: 融合速度與精度的高效網路
6.7.1EfficientNet V2模型設計動機
6.7.2EfficientNet模型的問題
6.7.3EfficientNet V2模型的改進
6.7.4EfficientNet V2模型小結
6.8RepVGG: 以簡化網路結構為核心的下一代模型
6.8.1RepVGG模型設計動機
6.8.2RepVGG模型結構
6.8.3RepVGG重參數化
6.8.4RepVGG模型小結
第7章Transformer的強勢入侵
7.1Transformer模型
7.1.1Transformer算法解讀
7.1.2自注意力層
7.1.3多頭自注意力層
7.1.4編碼器結構
7.1.5解碼器結構
7.1.6線性頂層和Softmax層
7.1.7輸入數據的向量化
7.1.8Transformer模型小結
7.2Vision Transformer模型: 從NLP到CU的Transformer算法變革
7.2.1ViT框架
7.2.2圖片數據的向量化
7.2.3ViT的Transformer編碼器
7.2.4MLP Head模組
7.2.5ViT模型縮放
7.2.6混合ViT模型
7.2.7ViT模型小結
7.3Swin Transformer模型: 視窗化的Transformer
7.3.1Swin Transformer網路整體框架
7.3.2Patch Merging詳解
7.3.3WMSA詳解
7.3.4SWMSA詳解
7.3.5相對位置偏置詳解
7.3.6Swin Transformer模型詳細配置參數
7.3.7Swin Transformer模型討論與總結
7.4VAN視覺注意力網路: 基於卷積實現的注意力機制
7.4.1相關工作
7.4.2大核注意力機制
7.4.3視覺注意力網路
7.4.4VAN模型小結
7.5ConvNeXt模型: 披著“Transformer”的“CNN”
7.5.1模型和訓練策略選擇
7.5.2Macro Design
7.5.3模仿ResNeXt模型
7.5.4Inverted Bottleneck反向瓶頸結構
7.5.5Large Kernel Sizes
7.5.6Micro Design
7.5.7ConvNeXt模型縮放
7.5.8ConvNeXt模型小結
第8章多層感知機的重新思考
8.1MLPMixer模型: 多層感知機的神奇魔法
8.1.1Perpatch全連線層
8.1.2MixerLayer代替自注意力機制
8.1.3MLPMixer模型結構
8.1.4MLPMixer代碼實現
8.1.5MLPMixer模型小結
8.2ASMLP模型: 注意力驅動下的多層感知機升級
8.2.1ASMLP模型
8.2.2ASMLP模型結構
8.2.3ASMLP代碼實現
8.2.4ASMLP模型小結
8.3ConvMixer模型: 卷積與多層感知機的相互借鑑
8.3.1圖像編碼成向量
8.3.2ConvMixer模型
8.3.3ConvMixer網路結構
8.3.4ConvMixer代碼實現
8.3.5ConvMixer模型小結
8.4MetaFormer模型: 萬法歸一,構建Transformer模板
8.4.1MetaFormer模型
8.4.2MetaFormer模型結構
8.4.3MetaFormer代碼實現
8.4.4MetaFormer模型小結

相關詞條

熱門詞條

聯絡我們