大數據與機器學習經典案例

大數據與機器學習經典案例

《大數據與機器學習經典案例》是2021年清華大學出版社出版的圖書。

基本介紹

  • 中文名:大數據與機器學習經典案例
  • 作者:董相志,張志旺,田生文 等
  • 出版社:清華大學出版社
  • 出版時間:2021年2月1日
  • 頁數:312 頁
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787302564249
內容簡介,圖書目錄,作者簡介,

內容簡介

本書精選七個大數據與機器學習經典案例,全部採用國際著名機構發布的真實數據,研究領域涉及房產零售、生物信息、圖像處理、自動駕駛、蛋白質摺疊、機器問答、植物病理等。案例從數據分析和預處理開始,到特徵工程,再到機器學習建模,最後完成模型評估,系統推演,絲毫畢現。對於歷史經典模型(LeNet5)、結構優美的模型(VGG16)、自身套用廣泛並對後來算法影響深遠的模型(ResNet、Inception)、性能卓著的後起之秀模型(YOLO v1~v4、DenseNet、EfficientNet、EfficientDet、BERT)等,予以重點關注。
本書具備高階性、創新性與挑戰性三種創新特質,可作為大數據與人工智慧專業教材、畢業設計指導教材、創新訓練指導教材、實訓實習指導教材,也可供相關專業研究生和工程技術人員學習參考。

圖書目錄

第1章房價預測與回歸問題
1.1數據集
1.2訓練集觀察
1.3列變數觀察
1.4相關矩陣
1.5缺失數據
1.6離群值
1.7常態分配
1.8同方差與異方差
1.9線性回歸假設
1.10參數估計
1.11決定係數
1.12特徵工程
1.13數據集劃分與標準化
1.14線性回歸模型
1.15嶺回歸模型
1.16Lasso回歸模型
1.17ElasticNet回歸模型
1.18XGBoost回歸模型
1.19Voting回歸模型
1.20Stacking回歸模型
1.21模型比較
小結
習題
第2章人體蛋白圖譜與卷積神經網路
2.1數據集
2.2訓練集觀察
2.3標籤向量化
2.4均衡性檢查
2.5構建新訓練集
2.6卷積運算
2.7邊緣擴充
2.8卷積步長
2.9三維卷積
2.10定義卷積層
2.11簡單卷積神經網路
2.12定義池化層
2.13經典結構LeNet5
2.14卷積網路結構剖析
2.15為什麼使用卷積
2.16數據集劃分
2.17圖像的特徵表示
2.18蛋白圖像的特徵矩陣
2.19數據標準化
2.20模型定義
2.21模型訓練
2.22模型評估
2.23模型預測
小結
習題
第3章細胞圖像與深度卷積
3.1數據集
3.2數據採集
3.3數據集觀察
3.4數據分布
3.5篩選數據集
3.6神經網路
3.7符號化表示
3.8激勵函式
3.9損失函式
3.10梯度下降
3.11正向傳播
3.12反向傳播
3.13偏差與方差
3.14正則化
3.15MiniBatch梯度下降
3.16最佳化算法
3.17參數與超參數
3.18Softmax回歸
3.19VGG16卷積網路
3.20ResNet卷積網路
3.211×1卷積
3.22Inception卷積網路
3.23合成細胞彩色圖像
3.24數據集劃分
3.25製作HDF5數據集
3.26遷移學習與特徵提取
3.27基於VGG16的遷移學習
3.28訓練ResNet50模型
3.29ResNet50模型預測
小結
習題
第4章自動駕駛與YOLO算法
4.1認識自動駕駛
4.2數據集
4.3數據集觀察
4.4變數觀察
4.5場景觀察
4.6場景動畫
4.7目標檢測
4.8特徵點檢測
4.9滑動視窗實現目標檢測
4.10卷積方法實現滑動視窗
4.11初識YOLO算法
4.12交並比
4.13非極大值抑制
4.14Anchor Boxes
4.15YOLO技術演進
4.16用OpenCV顯示圖像
4.17用OpenCV播放視頻
4.18用GoogLeNet對圖像分類
4.19用GoogLeNet對視頻逐幀分類
4.20YOLO v3預訓練模型
4.21YOLO v3對圖像做目標檢測
4.22YOLO v3對視頻做目標檢測
4.23YOLO v3對駕駛場景做目標檢測
小結
習題
第5章AlphaFold與蛋白質結構預測
5.1什麼是AlphaFold
5.2肽鍵、多肽與肽鏈
5.3蛋白質的四級結構
5.4數據集
5.5篩選蛋白質序列
5.6計算殘基之間的距離
5.7二面角與拉氏構象圖
5.8計算二面角Phi(Φ)和Psi(Ψ)
5.9裁剪殘基序列的OneHot矩陣
5.10裁剪評分矩陣和二面角標籤
5.11定義二面角預測模型
5.12二面角模型參數設定與訓練
5.13二面角模型預測與評價
5.14定義距離預測模型
5.15構建殘基序列3D特徵矩陣
5.16構建3D評分矩陣
5.17定義距離標籤的3D矩陣
5.18距離模型參數設定與訓練
5.19距離模型預測與評價
小結
習題
第6章機器問答與BERT模型
6.1Google開放域數據集
6.2序列模型與RNN
6.3詞向量
6.4注意力機制
6.5Transformer模型
6.6BERT模型
6.7數據集分析
6.8F1分數
6.9定義BERT模型和RoBERTa模型
6.10訓練BERT微調模型
6.11用BERT微調模型預測
小結
習題
第7章蘋果樹病蟲害識別與模型集成
7.1數據集
7.2葉片觀察
7.3RGB通道觀察
7.4葉片圖像分類觀察
7.5葉片類別分布統計
7.6Canny邊緣檢測
7.7數據增強
7.8劃分數據集
7.9DenseNet模型定義
7.10DenseNet模型訓練
7.11DenseNet模型預測與評估
7.12EfficientNet模型定義
7.13EfficientNet模型訓練
7.14EfficientNet模型預測與評估
7.15EfficientNet Noisy Student模型
7.16EfficientDet模型
7.17模型集成
小結
習題
參考文獻

作者簡介

董相志,理學碩士,魯東大學信息與電氣工程學院副教授,主講《網路編程》、《Android程式設計》、《機器學習》、《深度學習》、《人工智慧》、《大數據與人工智慧》、《Python程式設計》、《Web前端設計》、《Web後端設計》等課程。近年來第一作者出版教材三部,參加省部級課題二項,獲山東省軟科學一等獎一項,獲山東省教學成果二等獎一項。主要教學研究方向為大數據與人工智慧、網路編程等。

相關詞條

熱門詞條

聯絡我們