《語言實戰——機器學習與數據分析》是2016年05月由電子工業出版社出版,左飛編纂的圖書。
基本介紹
基本信息,內容簡介,前言,目錄,
基本信息
作 譯 者:左飛
出版時間:2016-05
千 字 數:560
版 次:01-01
頁 數:392
開 本:16開
裝 幀:
I S B N :9787121286698
內容簡介
經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網路等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際套用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細緻入微。
前言
數據——蘊藏巨大財富的寶藏 19世紀中葉,英國倫敦曾經爆發過一場規模很大的霍亂。由於彼時人們對霍亂的致病機理還不甚了解,因此疫情在很長一段時間內都無法得到有效的控制。英國醫師約翰?斯諾用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關係,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之後,霍亂的發病率明顯下降。
目錄
第1章 初識R語言 1
1.1 R語言簡介 1
1.2 安裝與運行 3
1.3 開始使用R 5
1.4 包的使用 7
1.5 使用幫助 8
第2章 探索R數據 10
2.1 向量的創建 10
2.2 向量的運算 13
2.3 向量的篩選 15
2.4 矩陣的創建 17
2.5 矩陣的使用 20
2.5.1 矩陣的代數運算 20
2.5.2 修改矩陣的行列 22
2.5.3 對行列調用函式 23
2.6 矩陣的篩選 25
第3章 編寫R程式 28
3.1 流程的控制 28
3.1.1 條件選擇結構的概念 28
3.1.2 條件選擇結構的語法 29
3.1.3 循環結構的基本概念 30
3.1.4 循環結構的基本語法 31
3.2 算術與邏輯 33
3.3 使用函式 34
3.3.1 函式式語言 34
3.3.2 默認參數值 35
3.3.3 自定義函式 36
3.3.4 遞歸的實現 38
3.4 編寫代碼 40
第4章 機率統計基礎 42
4.1 機率論的基本概念 42
4.2 隨機變數數字特徵 45
4.2.1 期望 45
4.2.2 方差 46
4.3 基本機率分布模型 48
4.3.1 離散機率分布 48
4.3.2 連續機率分布 52
4.3.3 使用內嵌分布 55
4.4 大數定理及其意義 59
4.5 中央極限定理 62
4.6 隨機採樣分布 65
第5章 實用統計圖形 71
5.1 餅狀圖 71
5.2 直方圖 74
5.3 核密圖 78
5.4 箱線圖 81
5.4.1 箱線圖與分位數 81
5.4.2 使用並列箱線圖 84
5.5 條形圖 87
5.5.1 基本條形圖及調整 87
5.5.2 堆砌與分組條形圖 88
5.6 分位數與QQ圖 91
第6章 數據輸入/輸出 99
6.1 數據的載入 99
6.1.1 基本的數據導入方法 99
6.1.2 處理其他軟體的格式 103
6.1.3 讀取來自網頁的數據 104
6.1.4 從資料庫中讀取數據 106
6.2 數據的保存 108
6.3 數據預處理 109
6.3.1 常用數學函式 110
6.3.2 修改數據標籤 113
6.3.3 缺失值的處理 114
第7章 高級數據結構 118
7.1 列表 118
7.1.1 列表的創建 118
7.1.2 列表元素的訪問 120
7.1.3 增刪列表元素 121
7.1.4 拼接列表 123
7.1.5 列錶轉化為向量 123
7.1.6 列表上的運算 124
7.1.7 列表的遞歸 125
7.2 數據框 126
7.2.1 數據框的創建 126
7.2.2 數據框元素的訪問 128
7.2.3 提取子數據框 129
7.2.4 數據框行列的添加 130
7.2.5 數據框的合併 132
7.2.6 數據框的其他操作 134
7.3 因子 135
7.3.1 因子的創建 136
7.3.2 因子中插入水平 137
7.3.3 因子和常用函式 138
7.4 表 140
7.4.1 表的創建 141
7.4.2 表中元素的訪問 143
7.4.3 表中變數的邊際值 143
第8章 統計推斷 146
8.1 參數估計 146
8.1.1 參數估計的基本原理 146
8.1.2 單總體參數區間估計 149
8.1.3 雙總體均值差的估計 155
8.1.4 雙總體比例差的估計 161
8.2 假設檢驗 162
8.2.1 基本概念 162
8.2.2 兩類錯誤 166
8.2.3 均值檢驗 167
8.3 極大似然估計 172
8.3.1 極大似然法的基本原理 172
8.3.2 求極大似然估計的方法 174
8.3.3 極大似然估計套用舉例 176
第9章 非參數檢驗方法 181
9.1 列聯分析 181
9.1.1 類別數據與列聯表 181
9.1.2 皮爾遜(Pearson)的卡方檢驗 182
9.1.3 列聯分析套用條件 186
9.1.4 費希爾(Fisher)的確切檢驗 188
9.2 符號檢驗 190
9.3 威爾科克森(Wilcoxon)符號秩檢驗 195
9.4 威爾科克森(Wilcoxon)的秩和檢驗 199
9.5 克魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗 204
第10章 一元線性回歸 208
10.1 回歸分析的性質 208
10.2 回歸的基本概念 210
10.2.1 總體的回歸函式 210
10.2.2 隨機干擾的意義 211
10.2.3 樣本的回歸函式 213
10.3 回歸模型的估計 214
10.3.1 普通最小二乘法原理 214
10.3.2 一元線性回歸的套用 216
10.3.3 經典模型的基本假定 218
10.3.4 總體方差的無偏估計 222
10.3.5 估計參數的機率分布 225
10.4 正態條件下的模型檢驗 227
10.4.1 擬合優度的檢驗 227
10.4.2 整體性假定檢驗 231
10.4.3 單個參數的檢驗 233
10.5 一元線性回歸模型預測 234
10.5.1 點預測 234
10.5.2 區間預測 235
第11章 線性回歸進階 239
11.1 多元線性回歸模型 239
11.2 多元回歸模型估計 241
11.2.1 最小二乘估計量 241
11.2.2 多元回歸的實例 242
11.2.3 總體參數估計量 245
11.3 多元回歸模型檢驗 247
11.3.1 線性回歸的顯著性 247
11.3.2 回歸係數的顯著性 249
11.4 多元線性回歸模型預測 250
11.5 其他回歸模型函式形式 253
11.5.1 雙對數模型以及生產函式 253
11.5.2 倒數模型與菲利普斯曲線 255
11.5.3 多項式回歸模型及其分析 258
11.6 回歸模型的評估與選擇 260
11.6.1 嵌套模型選擇 261
11.6.2 赤池信息準則 262
11.6.3 逐步回歸方法 265
11.7 現代回歸方法的新進展 269
11.7.1 多重共線性 269
11.7.2 嶺回歸 270
11.7.3 從嶺回歸到Lasso 271
第12章 方差分析方法 275
12.1 方差分析的基本概念 275
12.2 單因素方差分析方法 278
12.2.1 基本原理 278
12.2.2 分析步驟 279
12.2.3 強度測量 280
12.3 雙因素方差分析方法 281
12.3.1 無互動作用的分析 281
12.3.2 有互動作用的分析 286
12.4 多重比較 289
12.4.1 多重t檢驗 290
12.4.2 "Dunnett" 檢驗 291
12.4.3 "Tukey" 的"HSD" 檢驗 294
12.4.4 "Newman" -"Keuls" 檢驗 298
12.5 方差齊性的檢驗方法 301
12.5.1 "Bartlett" 檢驗法 301
12.5.2 "Levene" 檢驗法 303
第13章 聚類分析 307
13.1 聚類的概念 307
13.2 K均值算法 308
13.2.1 距離度量 309
13.2.2 算法描述 310
13.2.3 套用實例 312
13.3 最大期望算法 314
13.3.1 算法原理 314
13.3.2 收斂探討 319
13.4 高斯混合模型 320
13.4.1 模型推導 320
13.4.2 套用實例 323
第14章 支持向量機 326
14.1 從邏輯回歸到線性分類 326
14.2 線性可分的支持向量機 330
14.2.1 函式距離與幾何距離 330
14.2.2 最大間隔分類器 332
14.2.3 拉格朗日乘數法 334
14.2.4 對偶問題的求解 339
14.3 鬆弛因子與軟間隔模型 343
14.4 非線性支持向量機方法 345
14.4.1 從更高維度上分類 345
14.4.2 非線性核函式方法 347
14.4.3 默瑟定理與核函式 350
14.5 對數據進行分類的實踐 350
14.5.1 基本建模函式 351
14.5.2 分析建模結果 355
第15章 人工神經網路 358
15.1 從感知機開始 358
15.1.1 感知機模型 358
15.1.2 感知機學習 360
15.1.3 多層感知機 362
15.2 基本神經網路 365
15.2.1 神經網路結構 365
15.2.2 符號標記說明 366
15.2.3 後向傳播算法 368
15.3 神經網路實踐 370
15.3.1 核心函式介紹 370
15.3.2 套用分析實踐 372
參考文獻 375