Python數據科學導論:概念、技術與套用

Python數據科學導論:概念、技術與套用

《Python數據科學導論:概念、技術與套用》是2018年機械工業出版社出版的圖書,作者是[西]勞拉·伊瓜爾(Laura Igual)。

基本介紹

  • 書名:Python數據科學導論:概念、技術與套用
  • 作者:[西]勞拉·伊瓜爾(Laura Igual)
  • ISBN:9787111604648
  • 定價:59元
  • 出版社:機械工業出版社
  • 出版時間:2018年8月
  • 裝幀:平裝
  • 開本:16開
內容簡介,作者簡介,圖書目錄,

內容簡介

《Python數據科學導論》通過理論與實踐相結合的方式來闡述數據科學的一系列重要概念及算法,以使讀者學會如何管理並利用數據。本書共有11章,第1章概要地介紹了數據科學的現狀並給出了一些使用本書的建議;第2章介紹了Python語言數據科學生態系統,涉及NumPy、SciPy和Pandas等熱門第三方庫;第3~7章著重講解了統計學和機器學習的知識,涉及描述統計學、統計推斷、監督學習、回歸分析、無監督學習等主題;第8~10章詳細介紹了數據科學的一些主要套用,如網路分析、推薦系統和情感分析;第11章介紹了並行計算及性能最佳化方法。

作者簡介

章宗長博士,蘇州大學特聘副教授,碩士生導師,網易人工智慧研究顧問。2012年6月畢業於中國科學技術大學計算機套用技術專業,獲工學博士學位。2010年10月-2011年10月在美國羅格斯大學計算機科學系做訪問學者,2012年8-10月在華為諾亞方舟實驗室擔任研究工程師,2012年11月-2014年6月在新加坡國立大學計算學院從事博士後研究,2014年7月起在蘇州大學工作。目前主要從事部分可觀測馬氏決策過程(POMDPs)、強化學習和多智慧型體系統理論等方面的研究。

圖書目錄

譯者序
原書前言
作者和貢獻者簡介
第1章 數據科學概述 // 1
1.1 什麼是數據科煮鴉定多學 //1
1.2 關於本書 //2
第2章 數據專家的工具箱 //4
2.1 引言 // 4
2.2 為什麼選擇Python // 4
2.3 數據專家的基本Python庫 // 5
2.3.1 數才您喇匪值和科學計算:NumPy和SciPy // 5
2.3.2 Scikit-learn:Python中的機器學習庫 // 5
2.3.3 Pandas:Python數據分析庫 // 5
2.4 數據科學生態系統的安裝 // 6
2.5 集成開發環境 // 6
2.5.1 網路集成開發環境:Jupyter // 7
2.6 數據專家從Python開始 // 7
2.6.1 讀取 // 11
2.6.2 選擇數據 // 13
2.6.3 篩選數據 // 14
2.6.4 嬸乃狼篩選連樂狼缺失的數據 // 15
2.6.5 處理數據 // 15
2.6.6 排序 // 19
2.6.7 分組數據 // 20
2.6.8 重排數據 // 21
2.6.9 對數據進行排名 // 22
2.6.10 繪圖 // 23
2.7 小結 // 24
第3章 描述統計學 // 25
3.1 引言 // 25
3.2 項只料數據準備 // 25
3.2.1 Adult數據集示例 // 26
3.3 探索性數據分析 // 28
3.3.1 匯總數據 // 28
3.3.2 數據分布 // 31
3.3.3 離群點的處理 // 33
3.3.4 測量不對稱性:偏度和皮爾遜中值偏度係數 // 36
3.3.5 連續分布 // 38
3.3.6 核密度 // 39
3.4 估計 // 41
3.4.1 樣本和估計均值、方差和標準記分 // 41
3.4.2 協方差、皮爾遜相關和斯皮爾曼秩相關 // 42
3.5 小結 // 44
參考文獻 // 45
第4章 統計推斷 // 46
4.1 引言 // 46
4.2 統計推斷:頻率論方法 // 46
4.3 測量估計的差異性 // 47
4.3.1 點估計 // 47
4.3.2 置信區間 // 50
4.4 假設檢驗 // 53
4.4.1 用置信區間檢驗假設 // 53
4.4.2 使茅漏用p值檢驗假設 // 55
4.5 效應E是真實的嗎 // 57
4.6 小結 // 57
參考文獻 // 58
第5章 監督學習 // 59
5.1 引言 // 59
5.2 問題 // 60
5.3 第一步 // 60
5.4 什麼是學習? // 69
5.5 學習曲線 // 70
5.6 訓練、驗證和測試 // 73
5.7 兩種學習模型 // 76
5.7.1 獄應灶學習三要素 // 76
5.7.2 支持向量機 // 77
5.7.3 隨機森林 // 79
5.8 結束學習過程 // 80
5.9 商業案例 // 81
5.10 小結 // 83
參考文獻 // 83
第6章 回歸分析 // 84
6.1 引言 // 84
6.2 線性回歸 // 84
6.2.1 簡單線性回歸 // 85
6.2.2 多元線性回歸和多項式回歸 // 90
6.2.3 稀疏模型 // 90
6.3 邏輯斯蒂回歸 // 97
6.4 小結 // 99
參考文獻 // 99
第7章 無監督學習 // 100
7.1 引言 // 100
7.2 聚類 // 100
7.2.1 相似度和距離 // 101
7.2.2 什麼是一個好的聚類?定義衡量聚類質量的度量 // 101
7.2.3 聚類技術的分類標準 // 104
7.3 案例學習 // 113
7.4 小結 // 118
參考文獻 // 119
第8章 網路分析 // 120
8.1 引言 // 120
8.2 圖的基本定義 // 121
8.3 社交網路分析 // 122
8.3.1 NetworkX基礎 // 122
8.3.2 實際案例:Facebook數據集 // 123
8.4 中心性 // 125
8.4.1 在圖中繪製中心性 // 130
8.4.2 PageRank // 132
8.5 自我網路 // 134
8.6 社區發現 // 138
8.7 小結 // 139
參考文獻 // 139
第9章 推薦系統 // 140
9.1 引言 // 140
9.2 推薦系統如何工作? // 140
9.2.1 基於內容的過濾 // 141
9.2.2 協作過濾 // 141
9.2.3 混合推薦系統 // 141
9.3 建模用戶偏好 // 142
9.4 評估推薦系統 // 142
9.5 實際案例 // 143
9.5.1 MovieLens數據集 // 143
9.5.2 基於用戶的協作過濾 // 145
9.6 小結 // 153
參考文獻 // 153
第10章 用於情感分析的統計自然語言處理 // 154
10.1 引言 // 154
10.2 數據清洗 // 155
10.3 文本表示 // 158
10.3.1 二元組和n元組 // 163
10.4 實際案例 // 163
10.5 小結 // 168
參考文獻 // 168
第11章 並行計算 // 169
11.1 引言 // 169
11.2 架構 // 170
11.2.1 入門指南 // 171
11.2.2 連線到集群(引擎)// 171
11.3 多核編程 // 172
11.3.1 引擎的直接視圖 // 172
11.3.2 引擎的負載均衡視圖 // 175
11.4 分散式計算 // 176
11.5 實際套用:紐約計程車旅行 // 177
11.5.1 直接視圖非阻塞方案 // 178
11.5.2 實驗結果 // 180
11.6 小結 // 182
參考文獻 // 182
3.3.1 匯總數據 // 28
3.3.2 數據分布 // 31
3.3.3 離群點的處理 // 33
3.3.4 測量不對稱性:偏度和皮爾遜中值偏度係數 // 36
3.3.5 連續分布 // 38
3.3.6 核密度 // 39
3.4 估計 // 41
3.4.1 樣本和估計均值、方差和標準記分 // 41
3.4.2 協方差、皮爾遜相關和斯皮爾曼秩相關 // 42
3.5 小結 // 44
參考文獻 // 45
第4章 統計推斷 // 46
4.1 引言 // 46
4.2 統計推斷:頻率論方法 // 46
4.3 測量估計的差異性 // 47
4.3.1 點估計 // 47
4.3.2 置信區間 // 50
4.4 假設檢驗 // 53
4.4.1 用置信區間檢驗假設 // 53
4.4.2 使用p值檢驗假設 // 55
4.5 效應E是真實的嗎 // 57
4.6 小結 // 57
參考文獻 // 58
第5章 監督學習 // 59
5.1 引言 // 59
5.2 問題 // 60
5.3 第一步 // 60
5.4 什麼是學習? // 69
5.5 學習曲線 // 70
5.6 訓練、驗證和測試 // 73
5.7 兩種學習模型 // 76
5.7.1 學習三要素 // 76
5.7.2 支持向量機 // 77
5.7.3 隨機森林 // 79
5.8 結束學習過程 // 80
5.9 商業案例 // 81
5.10 小結 // 83
參考文獻 // 83
第6章 回歸分析 // 84
6.1 引言 // 84
6.2 線性回歸 // 84
6.2.1 簡單線性回歸 // 85
6.2.2 多元線性回歸和多項式回歸 // 90
6.2.3 稀疏模型 // 90
6.3 邏輯斯蒂回歸 // 97
6.4 小結 // 99
參考文獻 // 99
第7章 無監督學習 // 100
7.1 引言 // 100
7.2 聚類 // 100
7.2.1 相似度和距離 // 101
7.2.2 什麼是一個好的聚類?定義衡量聚類質量的度量 // 101
7.2.3 聚類技術的分類標準 // 104
7.3 案例學習 // 113
7.4 小結 // 118
參考文獻 // 119
第8章 網路分析 // 120
8.1 引言 // 120
8.2 圖的基本定義 // 121
8.3 社交網路分析 // 122
8.3.1 NetworkX基礎 // 122
8.3.2 實際案例:Facebook數據集 // 123
8.4 中心性 // 125
8.4.1 在圖中繪製中心性 // 130
8.4.2 PageRank // 132
8.5 自我網路 // 134
8.6 社區發現 // 138
8.7 小結 // 139
參考文獻 // 139
第9章 推薦系統 // 140
9.1 引言 // 140
9.2 推薦系統如何工作? // 140
9.2.1 基於內容的過濾 // 141
9.2.2 協作過濾 // 141
9.2.3 混合推薦系統 // 141
9.3 建模用戶偏好 // 142
9.4 評估推薦系統 // 142
9.5 實際案例 // 143
9.5.1 MovieLens數據集 // 143
9.5.2 基於用戶的協作過濾 // 145
9.6 小結 // 153
參考文獻 // 153
第10章 用於情感分析的統計自然語言處理 // 154
10.1 引言 // 154
10.2 數據清洗 // 155
10.3 文本表示 // 158
10.3.1 二元組和n元組 // 163
10.4 實際案例 // 163
10.5 小結 // 168
參考文獻 // 168
第11章 並行計算 // 169
11.1 引言 // 169
11.2 架構 // 170
11.2.1 入門指南 // 171
11.2.2 連線到集群(引擎)// 171
11.3 多核編程 // 172
11.3.1 引擎的直接視圖 // 172
11.3.2 引擎的負載均衡視圖 // 175
11.4 分散式計算 // 176
11.5 實際套用:紐約計程車旅行 // 177
11.5.1 直接視圖非阻塞方案 // 178
11.5.2 實驗結果 // 180
11.6 小結 // 182
參考文獻 // 182

相關詞條

熱門詞條

聯絡我們