Python機器學習技術:模型關係管理

Python機器學習技術:模型關係管理

《Python機器學習技術:模型關係管理》是電子工業出版社於2023年出版的書籍,作者是丁亞軍。

基本介紹

  • 中文名:Python機器學習技術:模型關係管理
  • 作者:丁亞軍
  • 出版社電子工業出版社
  • 出版時間:2023年2月
  • 頁數:284 頁
  • 定價:109.0 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787121448430
  • 正文字數:477000 字
內容簡介,作者簡介,圖書目錄,

內容簡介

本書的主體內容包括機器學習概念與特徵工程、機器學習技術、模型關係管理,其中,模型關係管理部分主要介紹了弱集成學習、強集成學習和混合專家模型。弱集成學習是指使用機器學習中的弱分類器實現模型準確度和穩定性之間的平衡。

作者簡介

丁亞軍,高級顧問,經管之家數據科學研究院榮譽專家、電子工業出版社大數據專家委員組評審、國內某諮詢公司簽約顧問、經管之家培訓中心認證講師。研究方向:商CRM數據挖掘、市場調查研究、工業產品質量監控、機器學習與數據挖掘、深度學習算法、銀行風控與風險評分卡。

圖書目錄

第 1 部分 機器學習概念與特徵工程
第 1 章 機器學習的基礎概念 / 002
1.1 數據源 / 002
1.1.1 數值:單元格 / 002
1.1.2 圖像:像素點 / 003
1.1.3 文本:詞向量 / 004
1.2 模型的基本形式:回歸 / 006
1.2.1 文氏圖:方差分解 / 006
1.2.2 分布圖:分布與隨機 / 007
1.2.3 角色:監督與非監督 / 008
1.2.4 模型套用:歸因與預測 / 008
1.3 模型與算法 / 013
1.3.1 模型進化:從 1.0 到 4.0 / 013
1.3.2 算法驅動:參數與超參數 / 014
1.4 SMD 學習技術 / 014
1.4.1 統計學習:線性回歸 / 014
1.4.2 機器學習:支持向量機 / 015
1.4.3 深度學習:神經網路 / 016
1.5 機器學習誤差源 / 018
1.5.1 誤差源 / 018
1.5.2 偏差與方差窘境 / 019
1.6 模型擬合診斷 / 020
1.6.1 模型擬合 / 020
1.6.2 模型的評估指標 / 021
1.7 數據分區技術 / 024
1.7.1 數據分區:訓練與評估 / 025
1.7.2 交叉驗證:分區的升級 / 026
1.8 集成學習方法 / 028
1.8.1 強分類器:特徵工程+模型 / 029
1.8.2 弱分類器:模型+模型 / 029
1.8.3 混合專家:神經網路 / 029
1.9 運算加速度 / 029
1.9.1 大數據挑戰 / 030
1.9.2 數據的高效運算 / 030
第 2 章 特徵工程技術 / 032
2.1 數據變換 / 032
2.1.1 特徵規範化:對中處理 / 033
2.1.2 樣本規範化:距離相似度 / 035
2.2 數據編碼 / 036
2.2.1 獨熱編碼:無序性 / 037
2.2.2 數據分箱:業務標籤 / 038
2.3 缺失值填補 / 039
2.3.1 中位數填補:穩健 / 039
2.3.2 最近鄰填補:高維 / 039
2.3.3 隨機森林填補:“賢內助” / 041
2.4 異常值診斷 / 045
2.4.1 單變數異常值:描述 / 045
2.4.2 多變數異常值:監督 / 046
2.4.3 多變數異常值:非監督 / 046
2.4.4 非結構式異常值:自編碼器 / 047
2.5 共線性的危害 / 053
2.5.1 雙變數共線:新特徵 / 053
2.5.2 多變數共線:特徵分解 / 055
2.5.3 特徵組合技術 / 058
2.6 特徵篩選技術 / 059
2.6.1 經驗:“站在誰的肩膀上” / 061
2.6.2 相關:相關係數 / 061
2.6.3 回歸:特徵篩選 / 061
2.6.4 降維:線性與非線性 / 062
2.6.5 工具:“指南針” / 065
2.7 聚類技術:市場區隔 / 066
第 2 部分 機器學習技術
第 3 章 機器學習準備 / 069
3.1 機器學習的數學基礎 / 069
3.1.1 微積分基礎 / 069
3.1.2 向量運算:相關分析 / 072
3.1.3 矩陣運算:回歸模型 / 074
3.1.4 張量運算:神經網路 / 076
3.2 機器學習理解 / 077
3.2.1 連續型因變數:線性回歸 / 077
3.2.2 分類型因變數:邏輯回歸 / 081
3.3 機器學習算法 / 083
3.3.1 最小二乘法:準確度 / 083
3.3.2 最大似然估計法:測量 / 083
3.3.3 隨機梯度下降法:大數據 / 085
第 4 章 統計學:回歸“進化” / 087
4.1 大數據與回歸模型 / 087
4.1.1 統計學的煩惱 / 087
4.1.2 線性回歸的進化 / 088
4.2 正則化約束 / 089
4.2.1 正則化技術的原理 / 089
4.2.2 LASSO 回歸與嶺回歸 / 090
4.2.3 彈性網的特徵 / 091
4.3 案例:隨機梯度下降回歸與歸因解釋 / 092
第 5 章 神經網路模型:預測 / 096
5.1 感知器模型 / 096
5.1.1 與或四門通往何方 / 096
5.1.2 感知器=線性回歸 / 099
5.1.3 激活函式為何是非線性的 / 100
5.1.4 感知器=CPU / 102
5.2 神經網路模型 / 102
5.2.1 感知器集成:網路結構 / 102
5.2.2 前向傳播技術:聯立方程 / 105
5.2.3 反向傳播技術:自動微分 / 107
5.2.4 網路結構設計:隱含層 / 110
5.2.5 神經網路專題 1:特徵工程 / 111
5.2.6 神經網路專題 2:維度災難 / 112
5.3 案例:數據分析流與神經網路 / 112
第 6 章 決策樹:歸因與可視化 / 122
6.1 決策樹模型原理 / 122
6.1.1 熵與相關性 / 122
6.1.2 決策樹概覽 / 123
6.1.3 特徵分叉運算 / 124
6.1.4 特徵選擇運算 / 125
6.1.5 決策樹與剪枝 / 128
6.2 樹模型的特徵 / 128
6.3 兩類歸因:決策樹與邏輯回歸 / 130
6.3.1 樹形圖解釋 / 130
6.3.2 S 形圖解釋 / 131
第 7 章 支持向量機:高維數據 / 135
7.1 支持向量機簡介 / 135
7.1.1 超平面 / 135
7.1.2 點距超平面 / 137
7.2 線性支持向量機 / 138
7.2.1 硬間隔:嚴格邊界 / 138
7.2.2 軟間隔:鬆弛邊界 / 138
7.3 非線性與核技巧 / 139
7.3.1 理解核技巧 / 139
7.3.2 核函式及其套用 / 140
7.3.3 支持向量機:經驗匯總 / 141
7.4 支持向量機模型運算 / 142
7.5 案例:圖像識別與預測分類 / 144
第 8 章 關聯分析 / 148
8.1 數據源格式 / 148
8.1.1 標準數據格式 / 148
8.1.2 概念的層級性 / 149
8.2 關聯規則與度量指標 / 150
8.2.1 關聯規則度量 / 150
8.2.2 頻繁項集 / 151
8.2.3 Apriori 算法 / 151
8.2.4 強關聯規則 / 153
8.3 案例:商品關聯過濾與行銷推薦 / 154
第 3 部分 模型關係管理
第 9 章 集成學習方法:弱集成 / 160
9.1 集成學習:弱分類器 / 160
9.1.1 自抽樣法 / 161
9.1.2 套袋法與隨機森林 / 162
9.1.3 套袋法的運算 / 163
9.1.4 隨機森林與特徵工程 / 165
9.1.5 提升法與提升樹 / 165
9.1.6 提升法的運算 / 167
9.1.7 XGBoost 的原理與套用 / 170
9.2 集成學習:聚合策略 / 173
9.2.1 簡單投票法 / 174
9.2.2 堆疊法 / 175
9.2.3 理論判斷法 / 176
9.2.4 元分析法 / 177
9.2.5 結構方程模型 / 178
第 10 章 多階段模型管理:強集成 / 181
10.1 特徵工程與模型集成 / 181
10.1.1 機器學習與模型關係管理 / 181
10.1.2 “主成分+”與“聚類+”模式 / 182
10.2 多階段模型管理與案例解析 / 183
10.2.1 線性與非線性:決策樹+回歸 / 184
10.2.2 異常診斷一:異常評分+主次歸因+規則歸因 / 190
10.2.3 異常診斷二:異常規則+複雜歸因 / 195
10.2.4 經驗法:貝葉斯規則+回歸 / 199
10.2.5 不平衡修正:平衡性抽樣+模型集成 / 208
10.2.6 數據源:問卷+資料庫 / 212
第 11 章 深度學習模型:混合專家 / 219
11.1 全連線神經網路:數值分析 / 220
11.1.1 全連線神經網路規則 / 220
11.1.2 梯度爆炸與梯度消失 / 221
11.1.3 全連線層:正則化 / 224
11.1.4 構建全連線神經網路 / 224
11.2 卷積神經網路:圖像識別 / 225
11.2.1 卷積層:核運算 / 226
11.2.2 池化層:標準化 / 232
11.2.3 全連線層:信息傳遞 / 233
11.2.4 構建卷積神經網路 / 234
11.3 循環神經網路:自然語言處理 / 237
11.3.1 機率語言模型 / 237
11.3.2 循環神經網路 / 239
11.3.3 長短期記憶網路 / 241
11.3.4 構建循環神經網路 / 244
第 12 章 自動化機器學習 / 246
12.1 自動化與集成學習 / 246
12.1.1 自動化集成 / 246
12.1.2 TPOT 配置 / 247
12.1.3 案例:模型複雜度評估 / 248
12.2 數據分析流水線 / 251
12.2.1 數據分析流 / 252
12.2.2 模型失效周期 / 255
12.2.3 知識發現與模型 / 258
12.2.4 流水線技術準備 / 259
12.2.5 創建複雜流水線 / 261
12.3 超參數與高效運行 / 265
12.3.1 熱啟動 / 266
12.3.2 隨機搜尋 / 266
12.3.3 貝葉斯搜尋 / 268
12.3.4 增量學習 / 269
總結與展望 / 272

相關詞條

熱門詞條

聯絡我們