阿里雲天池大賽賽題解析——機器學習篇

內容簡介

《阿里雲天池大賽賽題解析——機器學習篇》聚焦機器學習算法建模及相關技術，以工業蒸汽量預測、天貓用戶重複購買預測、O2O優惠券預測和阿里雲安全惡意程式檢測等四個天池經典賽題作為實戰案例，針對實際賽題按照賽題理解、數據探索、特徵工程、模型訓練、模型驗證、特徵最佳化、模型融合等步驟，將賽題的解決方案從0到1層層拆解、詳細說明，在展現專業選手解題過程的同時，配以豐富的相關技術知識作為補充。

《阿里雲天池大賽賽題解析——機器學習篇》從經典商業案例出發，內容由淺入深、層層遞進，既可以作為專業開發者的參考用書，也可以作為參賽新手研讀專業算法的實戰手冊。

圖書目錄

賽題一工業蒸汽量預測

1 賽題理解 2

1.1 賽題背景 2

1.2 賽題目標 2

1.3 數據概覽 2

1.4 評估指標 3

1.5 賽題模型 4

2 數據探索 6

2.1 理論知識 6

2.1.1 變數識別 6

2.1.2 變數分析 6

2.1.3 缺失值處理 10

2.1.4 異常值處理 11

2.1.5 變數轉換 14

2.1.6 新變數生成 15

2.2 賽題數據探索 16

2.2.1 導入工具包 16

2.2.2 讀取數據 16

2.2.3 查看數據 16

2.2.4 可視化數據分布 18

2.2.5 查看特徵變數的相關性 26

3 特徵工程 33

3.1 特徵工程的重要性和處理 33

3.2 數據預處理和特徵處理 33

3.2.1 數據預處理 33

3.2.2 特徵處理 34

3.3 特徵降維 38

3.3.1 特徵選擇 39

3.3.2 線性降維 44

3.4 賽題特徵工程 45

3.4.1 異常值分析 45

3.4.2 最大值和最小值的

歸一化 46

3.4.3 查看數據分布 47

3.4.4 特徵相關性 48

3.4.5 特徵降維 48

3.4.6 多重共線性分析 49

3.4.7 PCA處理 50

4 模型訓練 52

4.1 回歸及相關模型 52

4.1.1 回歸的概念 52

4.1.2 回歸模型訓練和預測 52

4.1.3 線性回歸模型 52

4.1.4 K近鄰回歸模型 54

4.1.5 決策樹回歸模型 55

4.1.6 集成學習回歸模型 58

阿里雲天池大賽賽題解析——機器學習篇

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條