內容簡介
本書以機器學習算法為主題,詳細介紹算法的理論細節與套用方法。全書共19章,分別介紹了邏輯回歸與*熵模型、k-近鄰模型、決策樹模型、樸素貝葉斯模型、支持向量機模型、集成學習框架、EM算法、降維算法、聚類算法、神經網路模型等基礎模型或算法,以及8個綜合項目實例:汽車運動學片段分類、垃圾信息識別、乳腺癌識別、波士頓房價預測、生成動漫人物、鳶尾花分類、人臉識別、保險行為數簽灶重立據用戶分類器。本書重視理論與實踐相結合,希望為讀者提供全面而細緻的學習指導。 本書適合機器學習初學者、相關行業從業人員以及高等院校計算機科學、軟體工程等相關專業的師生閱讀。
圖書目錄
第1章機器學習概述
資源下載
1.1機器學習的組成
1.2分類問題及回歸問題
1.3監督學習、半監督學習和無監督學習
1.4生成模型及判別模型
1.5模型評估
1.5.1訓練誤差及泛化誤差
1.5.2過擬合及欠擬合
1.6正則化
1.7Scikitlearn模組
1.7.1數據集
1.7.2模型選擇
第2章邏輯回歸及熵模型
2.1線性回歸
2.1.1一元線性回歸
2.1.2多元線性回歸
2.2廣義線性回歸
2.2.1邏輯回歸
2.2.2多分類邏輯回歸
2.2.3交叉熵損失函式
2.3熵模型
2.3.1熵模寒棗戀型的導出
2.3.2熵模型與邏輯回歸之間的關係
2.4評價指標
2.4.1混淆矩陣
2.4.2準確率
2.4.3精確率與召回率
2.4.4PR曲線
2.4.5ROC曲線與AUC曲線
2.5實例: 基於邏輯回歸項協良實現乳腺癌預測
第3章k近鄰算法
3.1k值的選取
3.2距離的度量
3.3快速檢索
3.4實例: 基於k近閥盛滲踏鄰算法實現鳶尾花分類
第4章決策樹
4.1特徵選擇
4.1.1信息增益
4.1.2信息增益比
4.2決策樹生成算法CART
4.3決策樹剪枝
4.3.1預剪枝
4.3.2後剪枝
4.4實例: 基於決策樹實現葡萄酒分類
第5章樸素貝葉斯分類器
5.1極大似然估計
5.2樸素貝葉斯分類
5.3拉普拉斯平滑
5.4樸素貝葉斯分類器的極大似然估計解釋求重習
5.5實例: 基於樸素貝葉斯實現垃圾簡訊分類
第6章支持向量機
6.1間隔及超平面
6.2線性可分支持向量機
6.3線性支持向量機
6.4合頁損失函式
6.5核技巧
6.6二分類問題與多分類問題
6.6.1一對一
6.6.2一對多
6.6.3多對多
6.7實例: 基於支持向量機實現葡萄酒分類
第7章集成學習
7.1偏差與方差
7.2Bagging及隨機森林
7.2.1Bagging
7.2.2隨機森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升樹
7.4.1殘差提升樹
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6實例: 基於梯度下降樹實現波士頓房價預測
第8章EM算法及其套用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型GMM
8.4隱馬爾可夫模型
8.4.1計算觀測機率的輸出
8.4.2估計隱馬爾可夫模型的參數
8.4.3隱變數序列預測
8.5實例: 基於高斯混合模型實現鳶尾花分類
第9章降維
9.1主成分分析
9.1.1方差即協方差的無偏估計
9.1.2實例: 基於主成分分析實現鳶尾花數據降維
9.2奇異值分解
9.2.1奇異值分解的構造
9.2.2奇異值分解用於數據壓縮
9.2.3SVD與PCA的關係
9.2.4奇異值分解的幾何解釋
9.2.5實例: 基於奇異值分解實現圖片壓縮
第10章聚類
10.1距離度量
10.1.1閔可夫斯基距離
10.1.2餘弦相似度
10.1.3馬氏距離
10.1.4漢明距離
10.2層次聚類
10.3KMeans聚類
10.4KMedoids聚類
10.5DBSCAN
10.6實例: 基於KMeans實現鳶花聚類
第11章神戀端經網路與深度學習
11.1神經元模烏講蘭型
11.2多層感知機
11.3損失函式
11.4反向傳播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷積神經網路
11.5.1卷積
11.5.2池化
11.5.3網路架構
11.6循環神經網路
11.7生成對抗網路
11.8圖卷積神經網路
11.9深度學習發展
11.10實例: 基於卷積神經網路實現手寫數字識別
11.10.1MNIST數據集
11.10.2基於卷積神經網路的手寫數字識別
第12章實戰: 基於KMeans算法的汽車行駛運動學片段的分類
12.1樣本聚類
12.1.1SSE
12.1.2輪廓分析
12.2汽車行駛運動學片段的提取
12.3基於KMeans的汽車行駛運動學片段分類
第13章實戰: 從零實現樸素貝葉斯分類器用於垃圾信息識別
13.1算法流程
13.2數據集載入
13.3樸素貝葉斯模型
13.3.1構造函式設計
13.3.2數據預處理
13.3.3模型訓練
13.3.4測試集預測
13.3.5主函式實現
第14章實戰: 基於邏輯回歸算法進行乳腺癌的識別
14.1數據集載入
14.2Logistic模組
14.3模型評價
第15章實戰: 基於線性回歸、決策樹和SVM進行鳶尾花分類
15.1使用Logistic實現鳶尾花分類
15.2使用決策樹實現鳶尾花分類
15.3使用SVM實現鳶尾花分類
第16章實戰: 基於多層感知機模型和隨機森林模型的波士頓房價預測
16.1使用MLP實現波士頓房價預測
16.2使用隨機森林模型實現波士頓房價預測
第17章實戰: 基於生成式對抗網路生成動漫人物
17.1生成動漫人物任務概述
17.2反卷積網路
17.3DCGAN
17.4基於DCGAN的動漫人物生成
第18章實戰: 基於主成分分析法、隨機森林算法和SVM算法的人臉識別問題
18.1數據集介紹與分析
18.2LBP運算元
18.3提取圖片特徵
18.4基於隨機森林算法的人臉識別問題
18.5基於SVM算法的人臉識別問題
第19章實戰: 使用多種機器學習算法實現基於用戶行為數據的用戶分類器
19.1基於機器學習的分類器的技術概述
19.2工程數據的提取聚合和存儲
19.2.1數據整合的邏輯流程
19.2.2Sqoop數據同步
19.2.3基於Hive的數據倉庫
19.2.4基於Azkaban的數據倉庫的調度任務
19.2.5數據倉庫的數據集成和數據清洗
19.2.6整合後的數據表
19.3數據展示和分析
19.3.1數據集的選取和業務背景的描述
19.3.2各維度信息詳細說明
19.3.3各維度數據的描述性統計
19.3.4各維度數據的可視化
19.4特徵工程
19.4.1標準化
19.4.2區間縮放
19.4.3歸一化
19.4.4對定性特徵進行onehot編碼
19.4.5缺失值填補
19.4.6數據傾斜
19.5模型訓練和結果評價
19.5.1構造模型思路
19.5.2模型訓練的流程
19.5.3KFold交叉驗證
19.6各分類器模型的訓練和結果評價
19.6.1利用Python的sklearn包進行模型訓練的過程梳理
19.6.2邏輯斯諦分類模型的訓練和結果評價
19.6.3小近鄰算法模型的訓練和結果評價
19.6.4線性判別分析模型的訓練和結果評價
19.6.5樸素貝葉斯算法的模型的訓練和結果評價
19.6.6決策樹模型的訓練和結果評價
19.6.7支持向量機模型的訓練和結果評價
19.7模型提升——集成分類器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost實現過程及實驗結果
附錄A用戶歷史充值情況數據表
附錄B用戶各類訂單餘額情況
附錄C各省用戶收到公示訊息後的充值情況
參考文獻
作者簡介
呂雲翔,1986-1992: 北方交通大學講師; 1992-1994: 比利時VUB大學套用信息技術碩士; 1994-1996: 比利時VUB大學MBA; 1996-2003: IT公司項目經理 2003-至今: 北航軟體學院副教授。已出版二十幾本教材(其中“計算機導論實踐教程”一書獲北航2010年教學成果三等獎;
5.4樸素貝葉斯分類器的極大似然估計解釋
5.5實例: 基於樸素貝葉斯實現垃圾簡訊分類
第6章支持向量機
6.1間隔及超平面
6.2線性可分支持向量機
6.3線性支持向量機
6.4合頁損失函式
6.5核技巧
6.6二分類問題與多分類問題
6.6.1一對一
6.6.2一對多
6.6.3多對多
6.7實例: 基於支持向量機實現葡萄酒分類
第7章集成學習
7.1偏差與方差
7.2Bagging及隨機森林
7.2.1Bagging
7.2.2隨機森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升樹
7.4.1殘差提升樹
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6實例: 基於梯度下降樹實現波士頓房價預測
第8章EM算法及其套用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型GMM
8.4隱馬爾可夫模型
8.4.1計算觀測機率的輸出
8.4.2估計隱馬爾可夫模型的參數
8.4.3隱變數序列預測
8.5實例: 基於高斯混合模型實現鳶尾花分類
第9章降維
9.1主成分分析
9.1.1方差即協方差的無偏估計
9.1.2實例: 基於主成分分析實現鳶尾花數據降維
9.2奇異值分解
9.2.1奇異值分解的構造
9.2.2奇異值分解用於數據壓縮
9.2.3SVD與PCA的關係
9.2.4奇異值分解的幾何解釋
9.2.5實例: 基於奇異值分解實現圖片壓縮
第10章聚類
10.1距離度量
10.1.1閔可夫斯基距離
10.1.2餘弦相似度
10.1.3馬氏距離
10.1.4漢明距離
10.2層次聚類
10.3KMeans聚類
10.4KMedoids聚類
10.5DBSCAN
10.6實例: 基於KMeans實現鳶花聚類
第11章神經網路與深度學習
11.1神經元模型
11.2多層感知機
11.3損失函式
11.4反向傳播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷積神經網路
11.5.1卷積
11.5.2池化
11.5.3網路架構
11.6循環神經網路
11.7生成對抗網路
11.8圖卷積神經網路
11.9深度學習發展
11.10實例: 基於卷積神經網路實現手寫數字識別
11.10.1MNIST數據集
11.10.2基於卷積神經網路的手寫數字識別
第12章實戰: 基於KMeans算法的汽車行駛運動學片段的分類
12.1樣本聚類
12.1.1SSE
12.1.2輪廓分析
12.2汽車行駛運動學片段的提取
12.3基於KMeans的汽車行駛運動學片段分類
第13章實戰: 從零實現樸素貝葉斯分類器用於垃圾信息識別
13.1算法流程
13.2數據集載入
13.3樸素貝葉斯模型
13.3.1構造函式設計
13.3.2數據預處理
13.3.3模型訓練
13.3.4測試集預測
13.3.5主函式實現
第14章實戰: 基於邏輯回歸算法進行乳腺癌的識別
14.1數據集載入
14.2Logistic模組
14.3模型評價
第15章實戰: 基於線性回歸、決策樹和SVM進行鳶尾花分類
15.1使用Logistic實現鳶尾花分類
15.2使用決策樹實現鳶尾花分類
15.3使用SVM實現鳶尾花分類
第16章實戰: 基於多層感知機模型和隨機森林模型的波士頓房價預測
16.1使用MLP實現波士頓房價預測
16.2使用隨機森林模型實現波士頓房價預測
第17章實戰: 基於生成式對抗網路生成動漫人物
17.1生成動漫人物任務概述
17.2反卷積網路
17.3DCGAN
17.4基於DCGAN的動漫人物生成
第18章實戰: 基於主成分分析法、隨機森林算法和SVM算法的人臉識別問題
18.1數據集介紹與分析
18.2LBP運算元
18.3提取圖片特徵
18.4基於隨機森林算法的人臉識別問題
18.5基於SVM算法的人臉識別問題
第19章實戰: 使用多種機器學習算法實現基於用戶行為數據的用戶分類器
19.1基於機器學習的分類器的技術概述
19.2工程數據的提取聚合和存儲
19.2.1數據整合的邏輯流程
19.2.2Sqoop數據同步
19.2.3基於Hive的數據倉庫
19.2.4基於Azkaban的數據倉庫的調度任務
19.2.5數據倉庫的數據集成和數據清洗
19.2.6整合後的數據表
19.3數據展示和分析
19.3.1數據集的選取和業務背景的描述
19.3.2各維度信息詳細說明
19.3.3各維度數據的描述性統計
19.3.4各維度數據的可視化
19.4特徵工程
19.4.1標準化
19.4.2區間縮放
19.4.3歸一化
19.4.4對定性特徵進行onehot編碼
19.4.5缺失值填補
19.4.6數據傾斜
19.5模型訓練和結果評價
19.5.1構造模型思路
19.5.2模型訓練的流程
19.5.3KFold交叉驗證
19.6各分類器模型的訓練和結果評價
19.6.1利用Python的sklearn包進行模型訓練的過程梳理
19.6.2邏輯斯諦分類模型的訓練和結果評價
19.6.3小近鄰算法模型的訓練和結果評價
19.6.4線性判別分析模型的訓練和結果評價
19.6.5樸素貝葉斯算法的模型的訓練和結果評價
19.6.6決策樹模型的訓練和結果評價
19.6.7支持向量機模型的訓練和結果評價
19.7模型提升——集成分類器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost實現過程及實驗結果
附錄A用戶歷史充值情況數據表
附錄B用戶各類訂單餘額情況
附錄C各省用戶收到公示訊息後的充值情況
參考文獻
作者簡介
呂雲翔,1986-1992: 北方交通大學講師; 1992-1994: 比利時VUB大學套用信息技術碩士; 1994-1996: 比利時VUB大學MBA; 1996-2003: IT公司項目經理 2003-至今: 北航軟體學院副教授。已出版二十幾本教材(其中“計算機導論實踐教程”一書獲北航2010年教學成果三等獎;