機器學習Python版(英文版)

《機器學習Python版(英文版)》是2022年機械工業出版社出版的圖書。

基本介紹

  • 中文名:機器學習Python版(英文版)
  • 出版時間:2022年8月1日
  • 出版社:機械工業出版社
  • ISBN:9787111701033
內容簡介,圖書目錄,作者簡介,

內容簡介

本書面向初學者,使用Python語言以及流行的scikit-learn機器學習庫等資源,通過易於實踐的項目,幫助讀者掌握開發有效的機器學習系統所需的流程、模式和策略。本書首先介紹機器學習的基本概念和機器學習系統的評估技術;之後擴展工具庫,引入另外幾種分類和回歸技術以及特徵工程;最後介紹一些較為前沿的新技術,包括組合機器學習模型和自動化特徵工程模型等,並將機器學習套用於圖像處理和文本處理兩個特定領域。本書不依賴於複雜的數學公式,僅要求讀者具備一定的編程基礎,適合學生、數據分析人員、科研人員等各領域的讀者閱讀參考。

圖書目錄

第一部分 機器學習入門
第1章 機器學習概論 3
1.1 歡迎來到機器學習的世界 3
1.2 範圍、術語、預測和數據 4
1.2.1 特徵 5
1.2.2 目標值和預測值 6
1.3 讓機器開始機器學習 7
1.4 學習系統舉例 9
1.4.1 預測類別:分類器舉例 9
1.4.2 預測值:回歸器舉例 10
1.5 評估機器學習系統 11
1.5.1 準確率 11
1.5.2 資源消耗 12
1.6 創建機器學習系統的過程 13
1.7 機器學習的假設和現實 15
1.8 參考閱讀資料 17
1.8.1 進一步研究方向 17
1.8.2 注釋 17
第2章 相關技術背景 19
2.1 編程環境配置 19
2.2 數學語言的必要性 19
2.3 用於解決機器學習問題的軟體 20
2.4 機率 21
2.4.1 基本事件 22
2.4.2 獨立性 23
2.4.3 條件機率 24
2.4.4 機率分布 25
2.5 線性組合、加權和以及點積 28
2.5.1 加權平均 30
2.5.2 平方和 32
2.5.3 誤差平方和 33
2.6 幾何視圖:空間中的點 34
2.6.1 直線 34
2.6.2 直線拓展 39
2.7 表示法和加1技巧 43
2.8 漸入佳境:突破線性和非線性 45
2.9 NumPy與“數學無所不在” 47
2.9.1 一維數組與二維數組 49
2.10 浮點數問題 52
2.11 參考閱讀資料 53
2.11.1 小結 53
2.11.2 注釋 54
第3章 預測類別:分類入門 55
3.1 分類任務 55
3.2 一個簡單的分類數據集 56
3.3 訓練和測試:請勿“應試教育” 59
3.4 評估:考試評分 62
3.5 簡單分類器1:最近鄰分類器、遠距離關係和假設 63
3.5.1 定義相似性 63
3.5.2 k-最近鄰中的k 64
3.5.3 答案組合 64
3.5.4 k-最近鄰、參數和非參數方法 65
3.5.5 建立一個k-最近鄰分類模型 66
3.6 簡單分類器2:樸素貝葉斯分類器、機率和違背承諾 68
3.7 分類器的簡單評估 70
3.7.1 機器學習的性能 70
3.7.2 分類器的資源消耗 71
3.7.3 獨立資源評估 77
3.8 參考閱讀資料 81
3.8.1 再次警告:局限性和尚未解決的問題 81
3.8.2 小結 82
3.8.3 注釋 82
3.8.4 練習題 83
第4章 預測數值:回歸入門 85
4.1 一個簡單的回歸數據集 85
4.2 最近鄰回歸和匯總統計 87
4.2.1 中心測量:中位數和均值 88
4.2.2 構建一個k-最近鄰回歸模型 90
4.3 線性回歸和誤差 91
4.3.1 地面總是不平坦的:為什麼需要斜坡 92
4.3.2 傾斜直線 94
4.3.3 執行線性回歸 97
4.4 最佳化:選擇最佳答案 98
4.4.1 隨機猜測 98
4.4.2 隨機步進 99
4.4.3 智慧型步進 99
4.4.4 計算的捷徑 100
4.4.5 線性回歸的套用 101
4.5 回歸器的簡單評估和比較 101
4.5.1 均方根誤差 101
4.5.2 機器學習的性能 102
4.5.3 回歸過程中的資源消耗 102
4.6 參考閱讀資料 104
4.6.1 局限性和尚未解決的問題 104
4.6.2 小結 105
4.6.3 注釋 105
4.6.4 練習題 105
第二部分 通用評估技術
第5章 機器學習算法的評估和比較分析 109
5.1 評估和大道至簡的原則 109
5.2 機器學習階段的術語 110
5.2.1 有關機器的重新討論 110
5.2.2 更規範的闡述 113
5.3 過擬合和欠擬合 116
5.3.1 合成數據和線性回歸 117
5.3.2 手動操控模型的複雜度 118
5.3.3 “恰到好處”原則:可視化過擬合、欠擬合和最佳擬合 120
5.3.4 簡單性 124
5.3.5 關於過擬合必須牢記的注意事項 124
5.4 從誤差到成本 125
5.4.1 損失 125
5.4.2 成本 126
5.4.3 評分 127
5.5 (重新)抽樣:以少勝多 128
5.5.1 交叉驗證 128
5.5.2 分層抽樣 132
5.5.3 重複的訓練–測試數據集拆分 133
5.5.4 一種更好的方法和混排 137
5.5.5 留一交叉驗證 140
5.6 分解:將誤差分解為偏差和方差 142
5.6.1 數據的方差 143
5.6.2 模型的方差 144
5.6.3 模型的偏差 144
5.6.4 結合所有的因素 145
5.6.5 偏差–方差權衡示例 145
5.7 圖形可視化評估和比較 149
5.7.1 學習曲線:到底需要多少數據 150
5.7.2 複雜度曲線 152
5.8 使用交叉驗證比較機器學習模型 154
5.9 參考閱讀資料 155
5.9.1 小結 155
5.9.2 注釋 155
5.9.3 練習題 157
第6章 評估分類器 159
6.1 基線分類器 159
6.2 準確度以外:分類器的其他度量指標 161
6.2.1 從混淆矩陣中消除混淆 163
6.2.2 錯誤的方式 164
6.2.3 基於混淆矩陣的度量指標 165
6.2.4 混淆矩陣編碼 166
6.2.5 處理多元類別:多元類別平均 168
6.2.6 F1分數 170
6.3 ROC曲線 170
6.3.1 ROC模式 173
6.3.2 二元分類ROC 174
6.3.3 AUC:(ROC)曲線下的面積 177
6.3.4 多元分類機器學習模型、一對其他和ROC 179
6.4 多元

作者簡介

馬克·E. 芬納(Mark E. Fenner) Fenner Training and Consulting公司的創始人,自1999年起一直從事計算機和數學領域的教學工作,曾為眾多知名公司和國家實驗室開發課程並提供培訓。此外,他還從事機器學習、生物信息學和計算機安全方面的研究工作,所參與的項目涉及機器學習和數值算法的設計和實現、軟體倉庫的安全性分析、蛋白質功能的機率建模以及顯微鏡數據的分析和可視化等。他擁有計算機科學博士學位。

相關詞條

熱門詞條

聯絡我們