Python數據挖掘與機器學習

《Python數據挖掘與機器學習》是 清華大學出版社出版的圖書。

內容簡介,目錄,

內容簡介

 《Python數據挖掘與機器學習》主要介紹數據挖掘與機器學習的基本概念和方法,包括數據預處理、Python數據挖掘與可視化基礎、關聯規則挖掘、回歸分析、分類、聚類、神經網路和離群點檢測等內容。各章力求原理敘述清晰,易於理解,突出理論聯繫實際,輔以Python代碼實踐與指導,帶領讀者更好地理解與套用算法,快速邁進數據挖掘領域,掌握機器學習算法的理論和套用。
  《Python數據挖掘與機器學習》可作為高等學校計算機科學與技術、數據科學與大數據技術等相關專業的教材,也可作為科研人員、工程師和大數據愛好者的參考書。

目錄

源碼下載
第1章緒論
1.1數據挖掘簡介
1.2數據分析與數據挖掘
1.3數據挖掘的主要任務
1.3.1關聯分析
1.3.2數據建模預測
1.3.3聚類分析
1.3.4離群點檢測
1.4數據挖掘的數據源
1.4.1資料庫數據
1.4.2數據倉庫
1.4.3事務資料庫
1.4.4其他類型數據
1.5數據挖掘使用的技術
1.5.1統計學
1.5.2機器學習
1.5.3資料庫管理系統與數據全催倉庫
1.6數據挖掘存在的主要問題
1.7數據挖掘建模的常用工具
1.7.1商用工具
1.7.2開源工具
1.8為何選用Python進行數據挖掘
1.9Python數據挖掘常用庫
1.10Jupyter Notebook的使用
1.11小結
習題1
第2章Python數據分析與挖掘基礎
2.1Python程式概述
2.1.1基礎數據類型
2.1.2變數和賦婚騙懂值
2.1.3運算符和表達式
2.1.4字元串
2.1.5流程控制
2.1.6函式
2.2內建數據結構
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3NumPy數值運算基礎
2.3.1創建數組對象
2.3.2ndarray對象屬性和數據轉換
2.3.3生成隨機數
2.3.4數組變換
2.3.5數組的索引和切片
2.3.6數組的運算
2.3.7NumPy中的數據統計與分析
2.4Pandas統計分析基礎
2.4.1Pandas中的數據結構
2.4.2索引對象
2.4.3查看DataFrame的再檔海危常用屬性
2.4.4DataFrame的數據查詢與編輯
2.4.5Pandas數據運算
2.4.6函式套用與映射
2.4.7排序
2.4.8匯總與統計
2.4.9數據分組與聚合
2.4.10Pandas數據讀取與存儲
2.5Matplotlib圖表繪製基礎
2.5.1Matplotlib簡介
2.5.2Matplotlib繪圖基礎
2.5.3設定pyplot的動態rc參數
2.5.4文本註解
2.5.5pyplot中的常用繪圖
2.6scikitlearn
2.6.1scikitlearn簡介
2.6.2scikitlearn中的數據集
2.6.3scikitlearn的主要功能
2.7小結
習題2
第3章認識數據
3.1屬性及其類型
3.1.1屬性
3.1.2屬性類型
3.2數據的基本統計描述
3.2.1中心趨勢度量
3.2.2數據散布度量
3.3數據可視化
3.3.1基於像素的可視化技術
3.3.2幾何投影可視化技術
3.3.3基於圖符的多殃店可視化技術
3.3.4層次可視化技術
3.3.5可視化複雜對象和關係
3.3.6高維數據可視化
3.3.7Python可視化
3.4數據對象的相似性度量
3.4.1數據矩陣和相異性矩陣
3.4.2標稱屬性的相似性度量
3.4.3二元屬性的相似性度量
3.4.4數值屬性的相似性度量
3.4.5序數屬性的相似性度量
3.4.6混合辨拔漏類型屬性的相似性
3.4.7餘弦相似性
3.4.8距離度量Python實現
3.5小結
習題3
第4章數據預處理
4.1數據預處理的必要性
4.1.1原始數據中存在的問題
4.1.2數據質量要求
4.2數據清洗
4.2.1數據清洗方法
4.2.2利用Pandas進行數據清洗
4.3數據集成
4.3.1數據集成過程中的關鍵問題
4.3.2利雅煉埋鞏用Pandas合併數據
4.4數據標準化
4.4.1離差標準化數據
4.4.2標準差標準化數據戒判籃
4.5數據歸約
4.5.1維歸約
4.5.2數量歸約
4.5.3數據壓縮
4.6數據變換與數據離散化
4.6.1數據變換的策略
4.6.2Python數據變換與離散化
4.7利用scikitlearn進行數據預處理
4.8小結
習題4
第5章回歸分析
5.1回歸分析概述
5.1.1回歸分析的定義與分類
5.1.2回歸分析的過程
5.2一元線性回歸分析
5.2.1一元線性回歸方法
5.2.2一元線性回歸模型的參數估計
5.2.3一元線性回歸模型的誤差方差估計
5.2.4一元回歸模型的主要統計檢驗
5.2.5一元線性回歸的Python實現
5.3多元線性回歸
5.3.1多元線性回歸模型
5.3.2多元線性回歸模型的參數估計
5.3.3多元線性回歸的假設檢驗及其評價
5.3.4多元線性回歸的Python實現
5.4邏輯回歸
5.4.1邏輯回歸模型
5.4.2邏輯回歸的Python實現
5.5其他回歸分析
5.5.1多項式回歸
5.5.2嶺回歸
5.5.3Lasso回歸
5.5.4逐步回歸
5.6小結
習題5
第6章關聯規則挖掘
6.1關聯規則分析概述
6.2頻繁項集、閉項集和關聯規則
6.3頻繁項集挖掘方法
6.3.1Apriori算法
6.3.2由頻繁項集產生關聯規則
6.3.3提高Apriori算法的效率
6.3.4頻繁模式增長算法
6.3.5使用垂直數據格式挖掘頻繁項集
6.4關聯模式評估方法
6.4.1強關聯規則不一定是有趣的
6.4.2從關聯分析到相關分析
6.5Apriori算法套用
6.6小結
習題6
第7章分類
7.1分類概述
7.2決策樹歸納
7.2.1決策樹原理
7.2.2ID3算法
7.2.3C4.5算法
7.2.4CART算法
7.2.5樹剪枝
7.2.6決策樹套用
7.3K近鄰算法
7.3.1算法原理
7.3.2Python算法實現
7.4支持向量機
7.4.1算法原理
7.4.2Python算法實現
7.5樸素貝葉斯分類
7.5.1算法原理
7.5.2樸素貝葉斯分類
7.5.3高斯樸素貝葉斯分類
7.5.4多項式樸素貝葉斯分類
7.5.5樸素貝葉斯分類套用
7.6模型評估與選擇
7.6.1分類器性能的度量
7.6.2模型選擇
7.7組合分類
7.7.1組合分類方法簡介
7.7.2袋裝
7.7.3提升和AdaBoost
7.7.4隨機森林
7.8小結
習題7
第8章聚類
8.1聚類分析概述
8.1.1聚類分析的概念
8.1.2聚類算法分類
8.2KMeans聚類
8.2.1算法原理
8.2.2算法改進
8.2.3KMeans算法實現
8.3層次聚類
8.3.1算法原理
8.3.2簇間的距離度量
8.3.3分裂層次聚類
8.3.4凝聚層次聚類
8.3.5層次聚類套用
8.4基於密度的聚類
8.4.1算法原理
8.4.2算法改進
8.4.3DBSCAN算法實現
8.5其他聚類方法
8.5.1STING聚類
8.5.2概念聚類
8.5.3模糊聚類
8.6聚類評估
8.6.1聚類趨勢的估計
8.6.2聚類簇數的確定
8.6.3聚類質量的測定
8.7小結
習題8
第9章神經網路與深度學習
9.1神經網路基礎
9.1.1神經元模型
9.1.2感知機與多層網路
9.2BP神經網路
9.2.1多層前饋神經網路
9.2.2後向傳播算法
9.2.3BP神經網路套用
9.3深度學習
9.3.1深度學習概述
9.3.2常用的深度學習算法
9.4小結
習題9
第10章離群點檢測
10.1離群點概述
10.1.1離群點的概念
10.1.2離群點的類型
10.1.3離群點檢測的挑戰
10.2離群點的檢測
10.2.1基於統計學的離群點檢測
10.2.2基於鄰近性的離群點檢測
10.2.3基於聚類的離群點檢測
10.2.4基於分類的離群點檢測
10.3scikitlearn中的異常檢測方法
10.4小結
習題10
第11章數據挖掘案例
11.1良/惡性乳腺腫瘤預測
11.2鐵達尼號乘客生還預測
11.3圖像的聚類分割
11.4小結
參考文獻
2.4.7排序
2.4.8匯總與統計
2.4.9數據分組與聚合
2.4.10Pandas數據讀取與存儲
2.5Matplotlib圖表繪製基礎
2.5.1Matplotlib簡介
2.5.2Matplotlib繪圖基礎
2.5.3設定pyplot的動態rc參數
2.5.4文本註解
2.5.5pyplot中的常用繪圖
2.6scikitlearn
2.6.1scikitlearn簡介
2.6.2scikitlearn中的數據集
2.6.3scikitlearn的主要功能
2.7小結
習題2
第3章認識數據
3.1屬性及其類型
3.1.1屬性
3.1.2屬性類型
3.2數據的基本統計描述
3.2.1中心趨勢度量
3.2.2數據散布度量
3.3數據可視化
3.3.1基於像素的可視化技術
3.3.2幾何投影可視化技術
3.3.3基於圖符的可視化技術
3.3.4層次可視化技術
3.3.5可視化複雜對象和關係
3.3.6高維數據可視化
3.3.7Python可視化
3.4數據對象的相似性度量
3.4.1數據矩陣和相異性矩陣
3.4.2標稱屬性的相似性度量
3.4.3二元屬性的相似性度量
3.4.4數值屬性的相似性度量
3.4.5序數屬性的相似性度量
3.4.6混合類型屬性的相似性
3.4.7餘弦相似性
3.4.8距離度量Python實現
3.5小結
習題3
第4章數據預處理
4.1數據預處理的必要性
4.1.1原始數據中存在的問題
4.1.2數據質量要求
4.2數據清洗
4.2.1數據清洗方法
4.2.2利用Pandas進行數據清洗
4.3數據集成
4.3.1數據集成過程中的關鍵問題
4.3.2利用Pandas合併數據
4.4數據標準化
4.4.1離差標準化數據
4.4.2標準差標準化數據
4.5數據歸約
4.5.1維歸約
4.5.2數量歸約
4.5.3數據壓縮
4.6數據變換與數據離散化
4.6.1數據變換的策略
4.6.2Python數據變換與離散化
4.7利用scikitlearn進行數據預處理
4.8小結
習題4
第5章回歸分析
5.1回歸分析概述
5.1.1回歸分析的定義與分類
5.1.2回歸分析的過程
5.2一元線性回歸分析
5.2.1一元線性回歸方法
5.2.2一元線性回歸模型的參數估計
5.2.3一元線性回歸模型的誤差方差估計
5.2.4一元回歸模型的主要統計檢驗
5.2.5一元線性回歸的Python實現
5.3多元線性回歸
5.3.1多元線性回歸模型
5.3.2多元線性回歸模型的參數估計
5.3.3多元線性回歸的假設檢驗及其評價
5.3.4多元線性回歸的Python實現
5.4邏輯回歸
5.4.1邏輯回歸模型
5.4.2邏輯回歸的Python實現
5.5其他回歸分析
5.5.1多項式回歸
5.5.2嶺回歸
5.5.3Lasso回歸
5.5.4逐步回歸
5.6小結
習題5
第6章關聯規則挖掘
6.1關聯規則分析概述
6.2頻繁項集、閉項集和關聯規則
6.3頻繁項集挖掘方法
6.3.1Apriori算法
6.3.2由頻繁項集產生關聯規則
6.3.3提高Apriori算法的效率
6.3.4頻繁模式增長算法
6.3.5使用垂直數據格式挖掘頻繁項集
6.4關聯模式評估方法
6.4.1強關聯規則不一定是有趣的
6.4.2從關聯分析到相關分析
6.5Apriori算法套用
6.6小結
習題6
第7章分類
7.1分類概述
7.2決策樹歸納
7.2.1決策樹原理
7.2.2ID3算法
7.2.3C4.5算法
7.2.4CART算法
7.2.5樹剪枝
7.2.6決策樹套用
7.3K近鄰算法
7.3.1算法原理
7.3.2Python算法實現
7.4支持向量機
7.4.1算法原理
7.4.2Python算法實現
7.5樸素貝葉斯分類
7.5.1算法原理
7.5.2樸素貝葉斯分類
7.5.3高斯樸素貝葉斯分類
7.5.4多項式樸素貝葉斯分類
7.5.5樸素貝葉斯分類套用
7.6模型評估與選擇
7.6.1分類器性能的度量
7.6.2模型選擇
7.7組合分類
7.7.1組合分類方法簡介
7.7.2袋裝
7.7.3提升和AdaBoost
7.7.4隨機森林
7.8小結
習題7
第8章聚類
8.1聚類分析概述
8.1.1聚類分析的概念
8.1.2聚類算法分類
8.2KMeans聚類
8.2.1算法原理
8.2.2算法改進
8.2.3KMeans算法實現
8.3層次聚類
8.3.1算法原理
8.3.2簇間的距離度量
8.3.3分裂層次聚類
8.3.4凝聚層次聚類
8.3.5層次聚類套用
8.4基於密度的聚類
8.4.1算法原理
8.4.2算法改進
8.4.3DBSCAN算法實現
8.5其他聚類方法
8.5.1STING聚類
8.5.2概念聚類
8.5.3模糊聚類
8.6聚類評估
8.6.1聚類趨勢的估計
8.6.2聚類簇數的確定
8.6.3聚類質量的測定
8.7小結
習題8
第9章神經網路與深度學習
9.1神經網路基礎
9.1.1神經元模型
9.1.2感知機與多層網路
9.2BP神經網路
9.2.1多層前饋神經網路
9.2.2後向傳播算法
9.2.3BP神經網路套用
9.3深度學習
9.3.1深度學習概述
9.3.2常用的深度學習算法
9.4小結
習題9
第10章離群點檢測
10.1離群點概述
10.1.1離群點的概念
10.1.2離群點的類型
10.1.3離群點檢測的挑戰
10.2離群點的檢測
10.2.1基於統計學的離群點檢測
10.2.2基於鄰近性的離群點檢測
10.2.3基於聚類的離群點檢測
10.2.4基於分類的離群點檢測
10.3scikitlearn中的異常檢測方法
10.4小結
習題10
第11章數據挖掘案例
11.1良/惡性乳腺腫瘤預測
11.2鐵達尼號乘客生還預測
11.3圖像的聚類分割
11.4小結
參考文獻

相關詞條

熱門詞條

聯絡我們