《數據分析技術(第2版)使用SQL和Excel工具》是2017年3月清華大學出版社出版的圖書,作者是[美]Gordon S.Linoff。
基本介紹
- 書名:數據分析技術(第2版)使用SQL和Excel工具
- 作者:[美]Gordon S.Linoff
- 出版社:清華大學出版社
- 出版時間:2017年3月
- 定價:98 元
- ISBN:9787302461395
內容簡介,圖書目錄,
內容簡介
SQL是數據查詢的基本語言,Excel是數據分析和展示的最常見工具。兩者結合,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要複雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的權威專家。書中介紹了如何使用SQL和Excel來設計並完成複雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋了對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的最新信息。
本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到複雜的套用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。
隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖表中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的最佳實踐、提高查詢性能的方法等。
圖書目錄
第1章 數據挖掘者眼中的SQL 1
1.1 資料庫、SQL和大數據 2
1.1.1 什麼是大數據? 2
1.1.2 關係型資料庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的資料庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型? 5
1.2.2 什麼是表? 5
1.2.3 什麼是實體-關係圖表? 8
1.2.4 郵政編碼表 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流? 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼,而不是怎么去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接表的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用表表達式 29
1.5.1 用於命名變數的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章 表中有什麼?開始數據探索 39
2.1 什麼是數據探索? 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖表:柱形圖 41
2.2.2 單元格中的條形圖 45
2.2.3 柱形圖的有用變化形式 47
2.2.4 其他類型的圖表 50
2.3 迷你圖 53
2.4 列中包含的值 55
2.4.1 直方圖 55
2.4.2 計數的直方圖 58
2.4.3 計數的累積直方圖 60
2.4.4 數字值的直方圖(頻率) 60
2.5 探索更多的值——最小值、最大
值和模式 64
2.5.1 最小值和最大值 64
2.5.2 最常見的值(模式) 65
2.6 探索字元串值 66
2.6.1 長度的直方圖 66
2.6.2 起始或結尾包含空白字元
的字元串 66
2.6.3 處理大小寫問題 67
2.6.4 字元串中存儲的字元是
什麼? 67
2.7 探索兩個列中的值 69
2.7.1 每個州的平均銷售額
是多少? 70
2.7.2 在一個單獨的訂單中,產品重複
出現的頻率是多少? 70
2.7.3 哪個州的American Express
用戶最多? 73
2.8 由一個列的數據擴展到所有列
的數據匯總 73
2.8.1 針對單列的匯總 74
2.8.2 返回表中所有列的查詢 76
2.8.3 使用SQL生成匯總編碼 76
2.9 小結 78
第3章 不同之處是如何不同? 79
3.1 基本的統計學概念 80
3.1.1 虛擬假設 80
3.1.2 可信度和機率 81
3.1.3 常態分配 82
3.2 平均值的區別有多大? 85
3.2.1 方法 85
3.2.2 子集平均值的標準差 85
3.2.3 三個方法 87
3.3 對表做抽樣 89
3.3.1 隨機抽樣 89
3.3.2 可重複的隨機樣本 90
3.3.3 分層比例抽樣 91
3.3.4 平衡的樣本 92
3.4 計數的可能性 93
3.4.1 有多少男性成員? 96
3.4.2 有多少加利福尼亞人? 98
3.4.3 虛擬假設和可信度 99
3.4.4 有多少客戶仍然是活躍
客戶? 100
3.4.5 比率或數字? 103
3.5 機率和它們的統計 104
3.5.1 機率的標準差 104
3.5.2 機率的置信區間 105
3.5.3 機率的不同 106
3.5.4 保守的下限值 107
3.6 卡方檢驗 107
3.6.1 期望值 108
3.6.2 卡方計算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方檢驗 111
3.6.5 州和產品之間的特殊關係 112
3.7 月份和支付類型與不同產品
類型的特殊關係 114
3.7.1 多維卡方 114
3.7.2 使用SQL查詢 115
3.7.3 結果 115
3.8 小結 116
第4章 發生的地點在何處? 119
4.1 緯度和經度 120
4.1.1 緯度和經度的定義 120
4.1.2 度數、分鐘和秒 121
4.1.3 兩個位置之間的距離 122
4.1.4 包含郵政編碼的圖片 128
4.2 人口統計 131
4.2.1 極端情況:最富有的和最貧
窮的人 132
4.2.2 分別在使用訂單和不使用訂
單的情況下比較郵政編碼 137
4.3 地理等級 142
4.3.1 州中最富有的郵政編碼 142
4.3.2 州中擁有最多訂單的郵政
編碼 143
4.3.3 地理數據中有趣的層級
結構 145
4.3.4 計算郡的財富 148
4.3.5 財富值的分布 150
4.3.6 在郡中,哪個郵政編碼是相對
最富有的? 151
4.3.7 擁有最高的相對訂單占有
份額的郡 152
4.4 在Excel中繪製地圖 155
4.4.1 為什麼繪製地圖? 155
4.4.2 不能繪圖 156
4.4.3 網路地圖 156
4.4.4 郵政編碼散點圖之上的州
邊界 157
4.5 小結 159
第5章 關於時間 161
5.1 資料庫中的日期和時間 162
5.2 開始調研日期 166
5.2.1 確認日期中沒有時間 166
5.2.2 根據日期比較計數 167
5.2.3 訂單數和訂單大小 172
5.2.4 星期 175
5.3 兩個日期之間有多長? 178
5.3.1 以天為單位的持續時間 178
5.3.2 以星期為單位的持續時間 180
5.3.3 以月為單位的持續時間 180
5.3.4 有多少個星期一? 181
5.3.5 下一個周年紀念日(或生日)
是什麼時候? 184
5.4 跨年比較 188
5.4.1 以天為單位比較 188
5.4.2 以星期為單位比較 189
5.4.3 以月為單位比較 190
5.5 以天計算活躍客戶數量 196
5.5.1 某天的活躍客戶數量 196
5.5.2 每天的活躍客戶數量 196
5.5.3 有多少不同類型的客戶? 198
5.5.4 不同任期時段的客戶數量 198
5.5.5 只使用SQL計算活躍客戶 201
5.6 Excel中的簡單圖表動畫 203
5.6.1 從訂單生成日期到運貨
日期 203
5.6.2 訂單延時在每年中的變化 205
5.7 小結 208
第6章 客戶的持續時間有多久?使用
生存分析理解客戶和他們的
價值 209
6.1 生存分析 210
6.1.1 平均壽命 211
6.1.2 醫學研究 212
6.1.3 關於風險率的示例 212
6.2 風險計算 213
6.2.1 數據調研 214
6.2.2 風險率 216
6.2.3 客戶可視化:時間與任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的點的估計 220
6.3.2 計算任意任期的生存率 221
6.3.3 在SQL中計算生存率 222
6.3.4 簡單的客戶保留率計算 225
6.3.5 保留率和生存率的區別 226
6.3.6 風險率和生存率的簡單
示例 227
6.4 對比不同的客戶分組 230
6.4.1 市場總結 230
6.4.2 市場分層 231
6.4.3 生存率比例 234
6.4.4 條件生存率 234
6.5 隨時間變化的生存率 236
6.5.1 特定風險率隨時間的變化 236
6.5.2 按照起始年份分類的客戶
生存率 238
6.5.3 之前的生存率什麼樣? 239
6.6 由生存率衍生出來的重要
指標 241
6.6.1 估算生存點 241
6.6.2 客戶任期的中間值 242
6.6.3 客戶生命周期的中間值 242
6.6.4 風險率的置信度 243
6.7 使用生存率計算客戶價值 245
6.7.1 估算收入 246
6.7.2 對個體的未來收入的估算 247
6.7.3 當前客戶分組的收入估算 249
6.7.4 所有客戶未來收入的估算 251
6.8 預測 253
6.8.1 對已有客戶的預測 254
6.8.2 對新開始者的預測 258
6.9 小結 259
第7章 影響生存率的因素:客戶
任期 261
7.1 哪些因素是重要的,何時
重要? 262
7.1.1 方法說明 262
7.1.2 使用平均值比較數字因素 264
7.1.3 風險比例 268
7.2 左截斷 271
7.2.1 認識左截斷 271
7.2.2 左截斷的影響 273
7.2.3 如何從理論上解決左截斷
問題 274
7.2.4 估算一個任期的風險率 275
7.2.5 估算所有任期的風險率 276
7.2.6 在SQL中計算 277
7.3 時間窗 278
7.3.1 一個商業問題 278
7.3.2 時間窗=左截斷+右截尾 278
7.4 競爭風險 283
7.4.1 競爭風險的示例 283
7.4.2 競爭風險的“風險率” 284
7.4.3 競爭風險的“生存率” 286
7.4.4 隨著時間的變化,客戶身上
發生了什麼? 287
7.5 事件前後 291
7.5.1 三種情況 291
7.5.2 使用生存率預測來理解一次
性事件 293
7.5.3 比較前後風險率 294
7.5.4 基於對列的方法 294
7.5.5 基於對列的方法:完全佇列 295
7.5.6 事件影響的直接估計 297
7.6 小結 301
第8章 多次購買以及其他重複事件 303
8.1 標識客戶 304
8.1.1 誰是那個客戶? 304
8.1.2 其他客戶信息 313
8.1.3 每一年出現多少新客戶? 316
8.2 RFM分析 325
8.2.1 維度 325
8.2.2 計算RFM單元格 329
8.2.3 RFM的有用程度 330
8.3 隨著時間的變化,哪些家庭的
購買金額在增長? 334
8.3.1 最早值和最晚值的比較 334
8.3.2 第一年和最後一年的值的
比較 341
8.3.3 最佳擬合線的趨勢 343
8.4 距離下一次事件的時間 344
8.4.1 計算背後的想法 344
8.4.2 使用SQL計算下一次購買
日期 345
8.4.3 從下一次購買日期到時間至
事件的分析 346
8.4.4 時間到事件分析的分層 347
8.5 小結 347
第9章 購物車裡有什麼?購物車
分析 349
9.1 探索產品 349
9.1.1 產品的散點圖 350
9.1.2 產品組的運輸年份 351
9.1.3 訂單中的重複產品 353
9.1.4 單位數量的直方圖 358
9.1.5 在一個訂單中,哪個產品可能
出現多次購買的情況? 359
9.1.6 改變價格 361
9.2 產品和客戶價值 362
9.2.1 訂單大小的一致性 362
9.2.2 與一次性客戶關聯的產品 365
9.2.3 與最好的客戶相關的產品 368
9.2.4 剩餘價值 370
9.3 產品的地理分布 372
9.3.1 每一個州中最常見的產品 372
9.3.2 哪些產品廣受歡迎,哪些產品
只在本地受歡迎? 373
9.4 哪些客戶購買了指定產品? 375
9.4.1 哪些客戶擁有最受歡迎的
產品? 375
9.4.2 客戶擁有哪個產品? 376
9.4.3 哪些客戶有3個特定的
產品? 381
9.4.4 普遍的嵌套集合的查詢 384
9.5 小結 385
第10章 關聯規則 387
10.1 項集 388
10.1.1 兩個產品的組合 388
10.1.2 更常見的項集 391
10.1.3 家庭,而不是訂單 396
10.2 最簡單的關聯規則 399
10.2.1 關聯和規則 400
10.2.2 零項關聯規則 400
10.2.3 機率的分布情況 401
10.2.4 零項關聯告訴了我們
什麼? 402
10.3 單項關聯規則 402
10.3.1 單項關聯規則的價值 402
10.3.2 生成所有的單項規則 404
10.3.3 包含評估信息的單項
規則 405
10.3.4 基於產品組的單項規則 406
10.4 雙項關聯 407
10.4.1 計算雙項關聯 408
10.4.2 使用卡方找到最佳規則 409
10.4.3 異質相關 413
10.5 擴展關聯規則 416
10.5.1 多項關聯 416
10.5.2 一個查詢中的多項關聯 418
10.5.3 使用產品屬性的規則 418
10.5.4 左右兩側項集內容不同
的規則 419
10.5.5 之前和之後:有序關聯
規則 419
10.6 小結 422
第11章 SQL數據挖掘模型 423
11.1 定向數據挖掘介紹 424
11.1.1 定向模型 424
11.1.2 建模中的數據 425
11.1.3 建模套用示例 427
11.1.4 模型評估 429
11.2 相似性模型 429
11.2.1 模型是什麼? 430
11.2.2 最好的郵政編碼是
哪個? 430
11.2.3 基礎的相似性模型 431
11.2.4 使用Z分數計算相似性
模型 433
11.2.5 鄰近模型示例 434
11.3 最受歡迎產品的查找模型 435
11.3.1 最受歡迎的產品 435
11.3.2 計算最受歡迎的產品組 436
11.3.3 評估查找模型 437
11.3.4 使用調試查找模型做
預測 437
11.3.5 使用二元分類 439
11.4 用於訂單大小的查找模型 440
11.4.1 最基本的模型:無維度
模型 440
11.4.2 添加一個維度 441
11.4.3 添加額外的維度 443
11.4.4 檢查不穩定性 443
11.4.5 使用平均值圖表評估
模型 444
11.5 用於回響率的查找模型 445
11.5.1 將整體機率作為一個
模型 445
11.5.2 探索不同的維度 446
11.5.3 模型的精準度 447
11.5.4 ROC圖表和AUC 450
11.5.5 加入更多的維度 453
11.6 樸素貝葉斯模型(證據模型) 455
11.6.1 機率的一些概念 455
11.6.2 計算樸素貝葉斯模型 457
11.6.3 樸素貝葉斯模型:評分和
提升度 463
11.6.4 樸素貝葉斯模型和查找
模型的比較 465
11.7 小結 466
第12章 最佳擬合線:線性回歸
模型 467
12.1 最佳擬合線 468
12.1.1 任期和支付金額 468
12.1.2 最佳擬合線的屬性 469
12.1.3 小心數據 473
12.1.4 圖表中的趨勢線 474
12.1.5 使用LINEST()函式的
最佳擬合 479
12.2 使用R2衡量擬合程度 483
12.2.1 R2值 483
12.2.2 R2的局限性 484
12.2.3 R2的含義 484
12.3 直接計算最佳擬合線係數 485
12.3.1 計算係數 485
12.3.2 在SQL中計算最佳
擬合線 486
12.3.3 價格彈性 487
12.4 加權的線性回歸 492
12.4.1 在第一年停止的客戶 492
12.4.2 加權的最佳擬合 493
12.4.3 圖表中的加權最佳
擬合線 494
12.4.4 SQL中的加權最佳
擬合線 495
12.4.5 使用Solver的加權最佳
擬合線 496
12.5 多個輸入 498
12.5.1 Excel中的多維回歸 498
12.5.2 建立包含三個變數的
模型 500
12.5.3 使用Solver處理多維
回歸 501
12.5.4 逐個選擇輸入變數 501
12.5.5 SQL中的多維回歸 502
12.6 小結 503
第13章 為進一步分析數據創建客戶
簽名 505
13.1 什麼是客戶簽名? 506
13.1.1 什麼是客戶? 506
13.1.2 客戶簽名的源數據 507
13.1.3 使用客戶簽名 510
13.2 設計客戶簽名 511
13.2.1 調試和預測 511
13.2.2 欄位的角色 511
13.2.3 時間段 512
13.3 建立客戶簽名的操作 515
13.3.1 驅動表 515
13.3.2 查找數據 518
13.3.3 最初的交易 520
13.3.4 旋轉 521
13.3.5 總結 528
13.4 抽取特徵 530
13.4.1 地理位置信息 530
13.4.2 日期時間列 531
13.4.3 字元串中的模式 532
13.5 總結客戶行為 534
13.5.1 計算時間序列的斜率 534
13.5.2 周末消費者 537
13.5.3 下降的使用行為 540
13.6 小結 541
第14章 性能問題:高效使用SQL 543
14.1 查詢引擎和性能 544
14.1.1 用於理解性能的時間
複雜度 544
14.1.2 一個簡單的示例 545
14.1.3 與性能相關的思考 547
14.1.4 性能的含義和測量 549
14.1.5 性能提升入門 549
14.2 高效使用索引 553
14.2.1 什麼是索引? 553
14.2.2 索引的簡單示例 557
14.2.3 索引的限制 560
14.2.4 高效使用複合索引 562
14.3 何時使用OR是低效的? 566
14.3.1 有時UNION ALL比OR
更好 566
14.3.2 有時LEFT OUTER JOIN比
OR更高效 567
14.3.3 有時多個條件表達式
更好 568
14.4 贊成和反對:表達一件事情的
不同方法 569
14.4.1 在Orders表中,哪些州
沒有被識別? 569
14.4.2 一個關於GROUP BY的
難題 571
14.4.3 小心COUNT(*)=0 573
14.5 視窗函式 576
14.5.1 視窗函式適用於什麼
地方? 576
14.5.2 視窗函式的靈活使用 576
14.6 小結 582
附錄 資料庫之間的等價結構 583