《統計學習必學的十個問題——理論與實踐》是清華大學出版社2021年出版的書籍。
基本介紹
- 中文名:統計學習必學的十個問題——理論與實踐
- 作者:李軒涯、張暐
- 出版社:清華大學出版社
- ISBN:9787302577171
- 定價:49.8
內容簡介,圖書目錄,
內容簡介
統計學習是機器學習的重要分支,本書兼顧了數學上的理論和代碼實踐,內容主要包括基礎知識和統計學習模型。第1章、第2章結合VC維介紹過擬合的本質,並介紹手動特徵選擇的辦法; 第3章、第4章從最簡單的線性模型出發經過機率統計的解讀而得到分類和回歸算法; 第5章討論不依賴於假設分布的非參數模型; 第6章介紹將核方法作為一種非線性拓展的技巧,介紹如何將該方法套用到很多算法中,並引出了著名的高斯過程; 第7章以混合高斯作為軟分配聚類的代表性方法,從而引出著名的EM算法; 第8章討論了機器學習的集成算法; 第9章介紹的線性和非線性降維方法將會解決維度災難問題,並且不同於單純的特徵選擇; 第10章討論不依賴於獨立同分布假設的時間序列算法。
本書適合對於統計學習感興趣的大學生、工程師閱讀參考。閱讀本書需要具備基礎的Python編程技術和基本的數學知識。
圖書目錄
第1章防止過擬合
1.1過擬合和欠擬合的背後
1.2性能度量和損失函式
1.3假設空間和VC維
1.4偏差方差分解的意義
1.5正則化和參數綁定
1.6使用scikitlearn
第2章特徵選擇
2.1包裹法 Warpper
2.2過濾法 Filter
2.3嵌入法 Embedded
2.4使用scikitlearn
第3章回歸算法中的貝葉斯
3.1快速理解判別式模型和生成式模型
3.2極大似然估計和平方損失
3.3最大後驗估計和正則化
3.4貝葉斯線性估計
3.5使用scikitlearn
第4章分類算法中的貝葉斯
4.1廣義線性模型下的sigmoid函式和softmax函式
4.2對數損失和交叉熵
4.3邏輯回歸的多項式拓展和正則化
4.4樸素貝葉斯分類器
4.5拉普拉斯平滑和連續特徵取值的處理方法
4.6使用scikitlearn
第5章非參數模型
5.1K近鄰與距離度量
5.2K近鄰與kd樹
5.3決策樹和條件熵
5.4決策樹的剪枝
5.5連續特徵取值的處理方法和基尼指數
5.6回歸樹
5.7使用scikitlearn
第6章核方法
6.1核方法的本質
6.2對偶表示和拉格朗日乘子法
6.3常見算法的核化拓展
6.4高斯過程
6.5使用scikitlearn
第7章混合高斯: 比高斯分布更強大
7.1聚類的重要問題
7.2潛變數與K均值
7.3混合高斯和極大似然估計的失效
7.4EM算法的核心步驟
7.5使用scikitlearn
第8章模型組合策略
8.1Bagging和隨機森林
8.2Boosting的基本框架
8.3Adaboost
8.4GBDT和XGBoost
8.5使用scikitlearn
第9章核化降維和學習流形
9.1線性降維
9.2核化線性降維
9.3流形學習
9.4使用scikitlearn
第10章處理時間序列
10.1機率圖模型和隱變數
10.2高階馬爾可夫模型
10.3隱馬爾可夫模型
10.4隱馬爾可夫模型的EM算法
10.5使用scikitlearn
參考文獻