《Anaconda數據科學實戰》是2020年人民郵電出版社出版的圖書。
基本介紹
- 書名:Anaconda數據科學實戰
- 作者:[美]Yuxing Yan,[美]詹姆斯·嚴
- 類別:程式設計
- 出版社:人民郵電出版社
- 出版時間:2020年
- 開本:16 開
- 裝幀:平裝-膠訂
- ISBN:9787115534507
內容簡介,圖書目錄,作者簡介,
內容簡介
Anaconda是一個強大的開源數據科學平台,它將很多好的工具整合在一起,極大地簡化了使用者的工作流程,並能夠幫助使用者解決一系列數據科學難題。 《Anaconda數據科學實戰》旨在通過一系列示例,引導讀者在編碼和圖表中了解Anaconda的強大之處。本書包括12章,結合R、Python、Octave和Julia等4種程式語言,從平台的安裝和配置開始,循序漸進地引導讀者掌握數據集的獲取、數據可視化、統計建模、管理包、Anaconda的最佳化、無監督學習、監督學習、數據預測分析、雲、分散式計算等內容。 本書示例豐富,講解細緻,作者不僅在金融領域有著深厚的積累,還有著豐富的教學經驗。對於那些有興趣了解金融領域數據科學的讀者,以及普通的數據分析師或數據科學從業者,本書都是一個不錯的選擇。在閱讀本書之前,我們希望讀者具備R或Python的基本編程知識,以及線性代數相關的基本知識。
圖書目錄
第 1章 Anaconda生態系統 1
1.1 簡介 1
1.1.1 通過Anaconda使用
Jupyter的理由 2
1.1.2 在無須預裝的情況下
使用Jupyter 2
1.2 Miniconda 5
1.3 Anaconda雲 5
1.4 查找幫助 6
1.5 總結 8
1.6 問題回顧及練習 9
第 2章 Anaconda安裝 11
2.1 安裝Anaconda 11
2.2 測試Python 13
2.3 使用IPython 14
2.4 通過Jupyter使用Python 16
2.5 Spyder簡介 17
2.6 通過Conda安裝R 19
2.7 安裝Julia並連結到Jupyter 20
2.8 安裝Octave並連結到Jupyter 21
2.9 查找幫助 23
2.10 總結 25
2.11 問題回顧及練習 25
第3章 數據基礎 27
3.1 數據源 28
3.2 UCI機器學習 28
3.3 Python包pandas簡介 31
3.4 輸入數據的幾種方式 32
3.4.1 使用R輸入數據 33
3.4.2 使用Python輸入數據 34
3.5 Quandl數據分發平台簡介 36
3.6 處理缺失數據 39
3.7 數據排序 42
3.7.1 切割數據集 45
3.7.2 合併不同數據集 45
3.7.3 數據輸出 48
3.8 Python包cbsodata簡介 49
3.9 Python包datadotworld簡介 50
3.10 R包haven和foreign簡介 51
3.11 R包dslabs簡介 52
3.12 生成Python數據集 53
3.13 生成R數據集 55
3.14 總結 56
3.15 問題回顧及練習 56
第4章 數據可視化 59
4.1 數據可視化的重要性 59
4.2 R數據可視化 60
4.3 Python數據可視化 66
4.4 Julia數據可視化 69
4.5 繪製簡單圖形 71
4.5.1 各種條狀圖、餅圖和
直方圖 74
4.5.2 添加趨勢 75
4.5.3 添加圖解和其他說明 76
4.6 R可視化包 79
4.7 Python可視化包 81
4.8 Julia可視化包 82
4.9 動態可視化 83
4.9.1 將圖片存儲為pdf 86
4.9.2 將動態可視化存儲
為HTML檔案 86
4.10 總結 87
4.11 問題回顧及練習 87
第5章 在Anaconda中統計建模 90
5.1 線性模型簡介 91
5.2 在R、Python、Julia和Octave
中運行線性回歸 92
5.3 臨界值和決策規則 96
5.4 F檢驗、臨界值和決策規則 97
5.5 處理缺失數據 104
5.5.1 清除缺失數據 104
5.5.2 用其他值替換缺失
數據 105
5.6 檢測及處理異常值 106
5.7 幾個多元線性模型 108
5.8 共線性及其解決方案 111
5.9 一個模型的性能測量 113
5.10 總結 113
5.11 問題回顧及練習 113
第6章 管理包 117
6.1 包、模組和工具箱簡介 118
6.2 使用包的兩個示例 118
6.3 查找所有R包 123
6.4 查找所有Python包 124
6.5 查找所有Julia包 125
6.6 查找所有Octave包 126
6.7 R中的任務視圖 126
6.8 查找手冊 128
6.9 包依賴 129
6.10 R包管理 130
6.11 Python包管理 132
6.12 Julia包管理 133
6.13 Octave包管理 134
6.14 包管理器conda 135
6.15 在R和Python中創建
程式集 137
6.16 查找環境變數 138
6.17 總結 140
6.18 問題回顧及練習 140
第7章 Anaconda的最佳化 142
7.1 為何最佳化很重要 142
7.2 最佳化的一般問題 144
7.3 二次最佳化 148
7.3.1 R中的最佳化 149
7.3.2 Python中的最佳化 151
7.3.3 Julia中的最佳化 153
7.3.4 Octave中的最佳化 156
7.4 股票投資組合最佳化 159
7.5 的稅收政策 161
7.6 R中用於最佳化的包 162
7.7 Python中用於最佳化的包 164
7.8 Octave中用於最佳化的包 165
7.9 Julia中用於最佳化的包 165
7.10 總結 166
7.11 問題回顧及練習 166
第8章 Anaconda中的無監督學習 168
8.1 無監督學習簡介 169
8.2 層次聚類 173
8.3 k-均值聚類 177
8.4 Python包scipy簡介 179
8.5 Python包contrastive簡介 181
8.6 Python包sklearn(scikit-learn)
簡介 181
8.7 R包rattle簡介 185
8.8 R包randomUniformForest
簡介 187
8.9 R包Rmixmod簡介 189
8.10 Julia實現 190
8.11 聚類分析的任務視圖 191
8.12 總結 192
8.13 問題回顧及練習 192
第9章 Anaconda中的監督學習 194
9.1 監督學習概覽 194
9.2 分類 199
9.2.1 k-近鄰算法 200
9.2.2 貝葉斯分類器 202
9.2.3 強化學習 204
9.3 監督學習的R實現 205
9.4 Python實現 209
9.5 Octave實現 213
9.6 Julia實現 217
9.7 總結 219
9.8 問題回顧及練習 220
第 10章 數據預測分析:建模和驗證 223
10.1 理解數據預測分析 223
10.2 有用的數據集 224
10.2.1 R包AppliedPredictive
Modeling 226
10.2.2 時間序列分析 228
10.3 預測未來事件 229
10.3.1 季節性 232
10.3.2 可視化組件 233
10.3.3 R包LiblineaR 234
10.3.4 R包datarobot 236
10.3.5 R包eclust 236
10.4 模型選擇 238
10.4.1 Python包model-
catwalk 240
10.4.2 Python包sklearn 240
10.4.3 Julia包QuantEcon 242
10.4.4 Octave包ltfat 243
10.5 Granger因果關係檢驗 245
10.6 總結 247
10.7 問題回顧及練習 247
第 11章 Anaconda雲 250
11.1 Anaconda雲簡介 250
11.2 深入學習Jupyter Notebook 251
11.2.1 Jupyter Notebook
格式 254
11.2.2 Notebooks分享 256
11.2.3 項目分享 258
11.2.4 環境分享 260
11.3 複製他人的環境到本地 261
11.4 總結 265
11.5 問題回顧及練習 265
第 12章 分散式計算、並行計算和
HPCC 267
12.1 分散式和並行計算簡介 267
12.1.1 並行處理的任務視圖 268
12.1.2 Python示例程式 269
12.2 理解MPI 270
12.2.1 R包Rmpi 270
12.2.2 R包plyr 271
12.2.3 R包parallel 272
12.2.4 R包snow 276
12.3 Python並行處理 276
12.3.1 單詞頻率的並行
處理 278
12.3.2 Monte-Carlo期權定價
並行處理 278
12.4 計算節點 280
12.5 Anaconda附加組件 280
12.6 HPCC簡介 281
12.7 總結 283
12.8 問題回顧及練習 283
作者簡介
嚴玉星博士畢業於麥吉爾大學,獲得金融學博士學位。他曾在加拿大、新加坡和美國的8 所大學教授各種金融課程,發表23篇研究和教學相關的論文,並著有6本書。此外,他還精通R、Python、SAS、MATLAB、Octave 和C 語言,是金融數據分析方面的專家。 詹姆斯·嚴當前在多倫多大學攻讀計算機科學和統計學雙學位。他還精通Python、R、Java、MATLAB 和SQL等。