重構大數據統計

重構大數據統計

《重構大數據統計》是2014年8月電子工業出版社出版的圖書,作者是楊旭。

基本介紹

  • 中文名:重構大數據統計
  • 作者:楊旭
  • 出版社:電子工業出版社
  • 出版時間:2014年08月
  • 頁數:404 頁
  • 定價:79 元
  • 開本:2014-8-1
  • 裝幀:平裝
  • ISBN:9787121225000 
  • 字數:502千
內容簡介,目錄,

內容簡介

基於《重構大數據統計》內容開發的數據分析工具已經在阿里巴巴集團內部的多個部門使用,並取得顯著效果。
大數據的統計計算是進行數據探索和分析挖掘的基礎,在實際套用中會遇到兩個問題:一個是需要使用多少資源;另一個是計算時間,它關係到數據探索分析的效率和效果。
人們都希望花更少的錢,並且希望計算時間更短,但對於某個確定的計算過程,它們是成反比的。《重構大數據統計》就是從統計計算的算法入手,重構其計算過程,從而同時降低資源使用量和計算時間。
《重構大數據統計》提出了一套完整的關於大數據統計的計算理論,包括常用的各種統計量和統計方法。
《重構大數據統計》提供大量的示例程式代碼幫助讀者進一步了解算法細節,便於將書中的方法運用於實際計算。
《重構大數據統計》適合對大數據分析感興趣的讀者閱讀:前面章節比較容易理解,包含了常用統計量的計算;後面的各章節需要讀者具備一些基礎知識。建議讀者根據自己的興趣和工作需要,選擇相應的內容參考。

目錄

第1章基本概念 1
1.1 數據類型 1
1.2 總體和樣本 2
1.3 參數和統計量 2
1.4 分散式計算 3
第2章單變數基本統計量 5
2.1 數量統計量 5
2.1.1 樣本方差為何除以n-1 7
2.1.2 數據分布與標準差的關係 10
2.1.3 新的計算公式 11
2.1.4 代碼實現 16
2.2 頻數統計量 18
2.3.1 通過排序方法計算次序統計量 25
2.3.2 不需排序就可計算的次序統計量 29
2.3.3 基於頻數信息計算次序統計量 31
2.3.4 中位數、眾數和均值的關係 34
第3章單變數數據的分布 36
3.1 直方圖 36
3.1.1 直方圖的計算 39
3.1.2 算法實現 42
3.1.3 已知數據頻數的情況下求直方圖 49
3.1.4 日期類型直方圖 49
3.2 經驗分布 57
3.3 近似分位數和近似百分位數 61
3.4 PP、QQ機率圖 65
3.5 單變數的基本統計信息 69
第4章多變數的數據特徵 77
4.1 協方差 77
4.2 相關係數 79
4.3 協方差和相關係數的計算實現 80
4.4 數據表的基本統計結果 84
第5章數據探索 88
5.1 擴展直方圖 88
5.1.1 計算方法 90
5.1.2 代碼實現 91
5.2 交叉表 110
第6章極限定理 116
6.1 大數定理 116
6.2 中心極限定理 117
第7章常用的分布函式介紹 123
7.1 基本定義 123
7.2 標準常態分配(Z分布或U分布) 124
7.3 卡方分布(χ^2分布) 129
7.4 學生T分布 133
7.5 F分布 139
第8章常用分布函式計算 145
8.1 函式定義 145
8.2 函式性質及相互間的關係 147
8.3 分布函式關係圖 164
8.4 分布函式的計算 166
8.4.1 計算Γ(x) 166
8.4.2 計算CDF_Γ 170
8.4.3 計算CDF_Β 173
8.4.4 計算IDF_Γ和CDF_Β 176
8.4.5 其他函式的計算 178
8.5 生成常用分布的隨機數 180
第9章參數估計 187
9.1 點估計與區間估計 187
9.2 單個總體的參數估計 190
9.2.1 不同情況的參數估計表達式 190
9.2.2 單個總體參數估計的實現 191
9.3 兩個總體的參數估計 196
9.3.1 不同情況的參數估計表達式 196
9.3.2 兩個總體參數估計的實現 199
第10章假設檢驗 207
10.1 基本概念 207
10.2 參數檢驗 209
10.3 單個總體參數的檢驗 212
10.3.1 各種情況下的檢驗方法 212
10.3.2 單個總體參數檢驗方法的實現 214
10.3.3 不同檢驗方法的選擇 223
10.4 兩個總體參數的檢驗 227
10.4.1 各種情況下的檢驗方法 227
10.4.2 兩個總體參數檢驗方法的實現 231
10.4.3 不同檢驗方法的選擇 237
第11章非參數檢驗 244
11.1 Pearson擬合優度χ^2檢驗 245
11.2 兩個變數的列聯表檢驗 248
11.3 K-S檢驗 250
11.3.1 單樣本K-S檢驗 251
11.3.2 雙樣本K-S檢驗 256
11.4 符號檢驗 258
11.5 秩統計量和秩檢驗方法 260
11.5.1 Wilcoxon秩和檢驗 260
11.5.2 Wilcoxon符號秩和檢驗 266
11.5.3 Kruskal-Wallis檢驗 268
11.5.4 Friedman檢驗 273
第12章方差分析 277
12.1.1 計算流程 278
12.1.2 代碼實現 280
12.1.3 方差分析與T檢驗的關係 283
12.1.4 方差分析中的多重比較方法 285
12.2.1 無互動作用的雙因素方差分析 289
12.2.2 有互動作用的雙因素方差分析 295
第13章多元線性回歸 302
13.1 數學模型 302
13.3 計算步驟 309
13.4 代碼實現 313
13.5.1 度量指標 320
13.5.2 代碼實現 323
13.5.3 套用示例 328
13.6 逐步回歸 330
第14章主成分分析 340
14.1 計算步驟 342
14.2 代碼實現 345
14.3 套用舉例 350
第15章判別分析 359
15.1 距離判別 359
15.1.1 Mahalanobis距離 360
15.1.2 模型訓練和預測 361
15.2 Fisher判別 364
15.3 Bayes判別 369
15.3.1 樸素Bayes判別 369
15.3.2 模型訓練和預測 370
15.4 判別算法的綜合模型 377
15.5 套用舉例 378
第16章模型評估曲線 383
16.1 相關概念 383
16.2 定義 384
16.2.1 ROC曲線 384
16.2.2 上升圖和反饋率—精確率線 386
16.3 計算實現 386
參考文獻 391

相關詞條

熱門詞條

聯絡我們