大話機器學習——原理|算法|建模|代碼30講

大話機器學習——原理|算法|建模|代碼30講

《大話機器學習——原理|算法|建模|代碼30講》是2023年6月1日清華大學出版社出版的圖書,作者:葉新江。

基本介紹

  • 中文名:大話機器學習——原理|算法|建模|代碼30講
  • 作者:葉新江
  • 出版時間:2023年6月1日
  • 出版社:清華大學出版社
  • ISBN:9787302628620
  • 定價:119 元
  • 印次:1-1
  • 印刷日期:2023.05.23
內容簡介,圖書目錄,

內容簡介

本書是作者多年在數據智慧型領域中利用機器學習實戰經驗的理解、歸納和總結。出於“回歸事物本質,規律性、系統性地思考問題”“理論為實踐服務並且反過來充實理論,為更多人服務”的想法和初心,本書系統地闡述了機器學習理論和工程方法論,並結合實際商業場景落地。
全書分為3部分。第1部分是機器學習的數學理論理解,這部分不是對於機器學習數學理論的嚴謹推導和證明,更多是對於理論背後的“到底是什麼,為什麼要這樣做”的通俗理解。儘可能通過對應到日常生活中的現象來進行講述。第2部分是機器學習模型、方法及本質,這一部分針對機器學習的方法論及具體的處理過程進行闡述。涉及數據準備、異常值的檢測和處理、特徵的處理、典型模型的介紹、代價函式、激活函式及模型性能評價等,是本書的核心內容。我們學習知識的主要目的是解決問題,特別是對於企業的從業人員,對在商業實戰環境中出現的問題,希望通過機器學習的方式來更好地解決。第3部分是機器學習實例展示。
本書內容系統、選材全面、知識講述詳細、易學易用,兼具實戰性和理論性,適合機器學習的初學者與進階者學習使用。

圖書目錄

目錄
第1部分機器學習的數學理論理解
第1講這個不確定的世界如何描述
1.1機率、幾率及期望
1.1.1概念及定義
1.1.2機率和幾率的關係
1.1.3期望值
1.2機率函式、機率分布函式和機率密度函式
1.2.1隨機變數和普通變數的區別
1.2.2離散型隨機變數和連續型隨機變數
1.2.3離散型隨機變數機率函式
1.2.4離散型隨機變數機率分布
1.2.5離散型隨機變數機率分布函式
1.2.6連續型隨機變數的機率函式和分布函式
1.3條件機率、聯合機率以及貝葉斯公式
1.3.1計算條件機率和聯合機率
1.3.2貝葉斯公式的歷史和現實含義
1.4本講小結
第2講數據的形態描述
2.1常態分配
2.2混合高斯分布
2.3伯努利分布及二項分布
2.4泊松分布
2.5指數分布
2.6冪律分布
2.7以上分布的總結和聯繫
2.8本講小結
第3講信息的數學表達
3.1自信息
3.2信息熵
3.3信息增益
3.4相對熵
3.5交叉熵
3.6基尼指數(不純度)
3.7本講小結
第4講隨機變數的相關性和重要性
4.1數值型變數之間的相關性
4.1.1協方差
4.1.2皮爾遜相關係數
4.2類別型變數之間的相關性
4.2.1互信息
4.2.2卡方值
4.3證據權重和信息值
4.3.1證據權重
4.3.2信息值
4.4本講小結
第5講抓住主要矛盾——降維技術理論
5.1主成分分析
5.2線性判別分析
5.3奇異值分解
5.4自編碼器
5.5PCA、SVD和 AE 是親戚
5.6傅立葉變換
5.7本講小結
第6講採樣方法
6.1拒絕採樣
6.2馬爾可夫鏈蒙特卡羅採樣
6.3MetropolisHastings採樣
6.4吉布斯採樣
6.5湯普森採樣
6.6上採樣人工合成數據策略
6.7本講小結
第7講抬頭看路低頭拉車的疊代方法
7.1疊代求解
7.2梯度下降法
7.3牛頓法及其改進算法
7.3.1泰勒展開式
7.3.2牛頓法
7.4Adam(Adaptive Moment Estimation)方法
7.4.1動量法(Momentum)
7.4.2RMSProp 方法
7.4.3終方法
7.5本講小結
第8講經典化問題求解方法
8.1小二乘估計
8.2似然估計
8.3後驗機率
8.4期望化方法
8.5熵模型
8.6本講小結
第2部分機器學習模型、方法及本質
第9講機器學習的方法論
9.1總體方法論
9.1.1業務理解建模
9.1.2建立假設模型
9.1.3數據收集
9.1.4數據準備
9.1.5建模分析
9.1.6解釋和模型評估
9.2建模分析的一般步驟
9.3模型和算法
9.3.1按學習方法區分
9.3.2按任務維度區分
9.3.3按模型的類型分
9.3.4模型算法和維度的對應
9.4本講小結
第10講數據準備
10.1釐清數據來源
10.1.1先有模型還是先有數據
10.1.2數據來源的類型
10.2數據的探索性分析
10.2.1主要工作內容
10.2.2主要步驟
10.3本講小結
第11講異常檢測和處理
11.1什麼是異常值
11.2異常檢測面臨的挑戰
11.3異常的種類
11.4異常檢測的套用領域
11.5異常檢測的方法
11.5.1基於統計模型的異常檢測
11.5.2基於深度學習的異常檢測
11.6本講小結
第12講特徵數據的預處理
12.1特徵標準化
12.2連續變數離散化
12.2.1為什麼要離散化
12.2.2如何進行離散化
12.3離散型特徵處理
12.3.1數值化處理
12.3.2啞編碼
12.3.3時間序列處理
12.4本講小結
第13講特徵的選擇、提取和構造
13.1為什麼要進行特徵的選擇、提取和構造
13.1.1特徵數量和模型性能的關係
13.1.2特徵選擇、提取和構造的主要原因
13.1.3其他非技術因素
13.2特徵的選擇
13.2.1過濾策略
13.2.2包裹策略
13.2.3嵌入策略
13.2.4三種策略的總結
13.3特徵的提取和構造
13.3.1特徵投影(降維)
13.3.2特徵組合
13.4本講小結
第14講機器學習模型——邏輯回歸和梯度提升決策樹
14.1邏輯回歸
14.1.1Logit的引入
14.1.2參數的求解過程
14.1.3模型的使用
14.1.4模型的本質
14.2梯度提升決策樹
14.2.1梯度提升決策樹的含義
14.2.2梯度提升決策樹的實現過程
14.2.3梯度提升決策樹例子及分析
14.2.4XGBoost
第15講機器學習模型——機率圖模型
15.1概述
15.2機率圖模型族譜及特徵
15.2.1特徵一: 有向和無向
15.2.2特徵二: 馬爾可夫性質
15.2.3特徵三: 判別式和生成式
15.2.4特徵四: 序列型模型
15.2.5核心概念小結
15.3兩個典型的機率圖模型
15.3.1隱馬爾可夫模型
15.3.2條件隨機場(CRF)
第16講機器學習模型——強化學習
16.1ε貪婪算法
16.2置信區間上界算法
16.3湯普森採樣
16.3.1貝塔分布
16.3.2貝塔分布與二項式分布的共軛先驗性質
16.3.3湯普森採樣的具體過程
16.4共性問題
第17講探索式學習
17.1概述
17.2模擬退火算法
17.3遺傳算法
17.4蟻群算法
第18講機器學習模型——人工神經網路
18.1神經網路的起源
18.2神經網路的開端
18.2.1簡單的神經網路結構——感知機
18.2.2多層感知機
18.3神經網路的崛起——反向傳播神經網路
18.4神經網路的突破——深度學習
18.4.1圖像識別的過程展示
18.4.2深度學習成功的關鍵
18.4.3深度學習的缺陷
18.5神經網路的實質——通用逼近定理
第19講基於機器學習的推薦技術
19.1推薦的作用
19.2推薦採用的方法
19.2.1基於鄰域的推薦方法
19.2.2隱語義模型推薦方法
19.2.3利用標籤的推薦方法
19.2.4利用上下文信息推薦方法
19.2.5深度學習推薦方法
19.3推薦效果評測指標和維度
第20講激活函式
20.1激活函式的作用
20.2激活函式的要求
20.3常用激活函式介紹
20.3.1Sigmoid函式
20.3.2tanh函式
20.3.3ReLU函式
20.3.4LeakyReLU函式
20.3.5ELU函式
20.3.6softmax函式
20.3.7常用激活函式的選擇建議
20.3.8高斯函式
第21講代價函式
21.1損失函式、代價函式和目標函式
21.2經驗風險、期望風險和結構風險
21.3正則化的本質
21.4常用損失函式
21.4.1平均誤差和均方誤差
21.4.2Huber損失
21.4.3對數損失
21.4.4對比損失/三元組損失(Triplet Loss)
21.5本講小結
第22講模型效果的衡量方法
22.1分類問題的模型效果衡量方法
22.1.1混淆矩陣
22.1.2FScore
22.1.3ROC及AUC
22.1.4KS值
22.2回歸模型中的效果衡量方法
22.3模型的選擇要素——偏差和方差
22.4交叉驗證
22.5本講小結
第23講機器學習和人工智慧展望
23.1當前人工智慧技術本質的認識
23.1.1人工智慧和機器學習的關係
23.1.2信息技術產業鏈條
23.2第三代人工智慧的發展方向
23.2.1代和第二代人工智慧的歷史
23.2.2第三代人工智慧要求
23.3人工智慧的小數據、大任務範式
23.3.1一隻烏鴉給我們的啟示
23.3.2小數據、大任務範式
第3部分機器學習實例展示
第24講垃圾郵件判斷(樸素貝葉斯分類)
24.1問題描述
24.2算法詳述
24.3代碼詳述
第25講客戶流失預測(高斯貝葉斯分類)
25.1問題描述
25.2算法詳述
25.3代碼詳述
第26講兩個特殊硬幣的投擲機率(期望化方法)
26.1問題描述
26.2算法詳述
26.3代碼詳述
第27講信用卡申請評分卡模型(WOE/IV邏輯回歸)
27.1問題描述
27.2算法詳述
27.3代碼詳述
第28講用戶忠誠度變化軌跡預測(隱馬爾可夫模型)
28.1問題描述
28.2算法詳述
28.3代碼詳述
第29講產品的價格設定(強化學習)
29.1問題描述
29.2算法詳述
29.3代碼詳述
第30講數據智慧型平台
30.1數據智慧型包含哪些內容
30.1.1基礎平台
30.1.2融合平台
30.1.3治理系統
30.1.4質量保證
30.1.5安全計算
30.1.6分析挖掘
30.1.7數據可視化
30.2產品化的數智平台
30.3本講小結

相關詞條

熱門詞條

聯絡我們