數據整理實踐指南

數據整理實踐指南

《數據整理實踐指南》是2016年人民郵電出版社出版的圖書,作者是[美] 麥卡倫 ( Q. EthanMcCallum )。

基本介紹

  • 書名:數據整理實踐指南
  • 作者:[美]麥卡倫(Q.EthanMcCallum)
  • ISBN:978-7-115-41102-0
  • 出版社:人民郵電出版社 
  • 出版時間:2016-03
  • 編輯陳冀康
基本信息,圖書簡介,目錄,

基本信息

【作者】
[美]麥卡倫(Q.EthanMcCallum)
【編輯】
【ISBN】
978-7-115-41102-0
【日期】
2016-03
【版次】
1
【印次】
1
【頁數】
209頁
【字數】
261千字
【開本】
16
【定價】
49元

圖書簡介

隨著數據科學的熱門,數據的最佳化、整理以及如何處理不良數據成為人們關注的重點。本書通過處理不良數據,進行數據清理的案例,向讀者展示了處理數據的方法。
本書共有19章,從6部分向讀者展示了使用和清理不良數據背後的理論和實踐。第1部分是Grubby的動手實踐指南,它向讀者介紹了駕馭、提取數據的方法,如何處理文本數據中的數據以及Web開發中碰到的數據問題。第2部分是讓人充滿意外的數據,它向讀者介紹了數據也會“撒謊”。第3部分是方法,它向讀者介紹了處理不良數據的一些方法。第4部分是數據存儲和基礎設施,它向讀者介紹了如何存儲數據。第5部分是數據的商業化,它向讀者介紹了如何避免數據處理的一些誤差。第6部分是數據策略,它向讀者介紹了如何追蹤數據、評估數據質量以及構建數據質量相關平台等。

目錄

第1章 從頭說起:什麼是噪音數據 1
第2章 是我的問題還是數據的問題 4
2.1 理解數據結構 5
2.2 校驗 8
2.2.1 欄位校驗 8
2.2.2 值校驗 9
2.2.3 簡單統計的物理解釋 10
2.3 可視化 11
2.3.1 關鍵字競價排名示例 13
2.3.2 搜尋來源示例 18
2.3.3 推薦分析 19
2.3.4 時間序列數據 22
2.4 小結 27
第3章 數據是給人看的不是給機器看的 28
3.1 數據 28
3.1.1 問題:數據是給人看的 29
3.1.2 對數據的安排 29
3.1.3 數據分散在多個檔案中 32
3.2 解決方案:編寫代碼 34
3.2.1 從糟糕的數據格式中讀取數據 34
3.2.2 從多個檔案中讀取數據 36
3.3 附言 42
3.4 其他格式 43
3.5 小結 45
第4章 純文本中潛在的噪音數據 46
4.1 使用哪種純文本編碼? 46
4.2 猜測文本編碼格式 50
4.3 對文本規範化處理 53
4.4 問題:在純文本中摻入了特定套用字元 55
4.5 通過Python處理文本 59
4.6 實踐練習題 60
第5章 重組Web數據 62
5.1 你能獲得數據嗎 63
5.1.1 一般工作流程示例 64
5.1.2 Robots 協定 65
5.1.3 識別數據組織模式 66
5.1.4 存儲離線版本 68
5.1.5 網頁抓取信息 69
5.2 真正的困難 73
5.2.1 下載原始內容 73
5.2.2 表單、對話框和開新視窗 73
5.2.3 Flash 74
5.3 不利情況的解決辦法 75
5.4 小結 75
第6章 檢測撒謊者以及相互矛盾網上評論的困惑 76
6.1 Weotta公司 76
6.2 獲得評論 77
6.3 情感分類 77
6.4 極化語言 78
6.5 創建語料庫 80
6.6 訓練分類器 81
6.7 分類器驗證 82
6.8 用數據設計 84
6.9 經驗教訓 84
6.10 小結 85
6.11 信息資源 86
第7章 請噪音數據站出來 87
7.1 實例1:在製造業中減少缺陷 87
7.2 實例2:誰打來的電話 90
7.3 實例3:當“典型的”不等於“平均的” 92
7.4 經驗總結 95
7.5 到工廠參觀能成為試驗的一部分嗎 96
第8章 血、汗和尿 97
8.1 書呆子戲劇性工作交換 97
8.2 化學家如何整理數字 98
8.3 資料庫都是我們的 99
8.4 仔細檢查 102
8.5 生命短暫的漂亮代碼庫 103
8.6 改變化學家(和其他電子表單濫用者) 104
8.7 傳遞線(tl)和數據記錄器(dr) 105
第9章 當數據與現實不匹配 107
9.1 到底是誰的報價機 108
9.2 股票分割、股利和調整 110
9.3 糟糕的現實 112
9.4 小結 114
第10章 偏差和誤差的來源 115
10.1 估算上的偏差:一般性的問題 117
10.2 報告上的誤差:一般性的問題 118
10.3 其他偏差來源 121
10.3.1 頂層編碼/底部編碼 121
10.3.2 Seam偏差 122
10.3.3 代理報告 123
10.3.4 樣本選擇 123
10.4 結論 124
參考文獻 124
第11章 不要把完美和正確對立起來:噪音數據真是噪音嗎 128
11.1 回憶學校生活 128
11.2 向著專業領域前進 129
11.2.1 政府工作 130
11.2.2 政府數據非常真實 131
11.3 套用實例—服務電話 132
11.4 繼續前進 133
11.5 經驗與未來展望 134
第12章 資料庫攻擊:什麼時候使用檔案 135
12.1 歷史 135
12.2 建立我的工具箱 136
12.3 數據存儲—我的路障 136
12.4 將檔案作為數據存儲器 137
12.4.1 簡單的檔案 138
12.4.2 檔案處理一切 138
12.4.3 檔案可包含任何數據形式 138
12.4.4 局部數據破壞 139
12.4.5 檔案擁有很棒的工具 139
12.4.6 沒有安裝稅 139
12.5 檔案的概念 140
12.5.1 編碼 140
12.5.2 文本檔案 140
12.5.3 二進制數據 140
12.5.4 記憶體映射檔案 140
12.5.5 檔案格式 140
12.5.6 分隔設定 142
12.6 檔案支持的網路框架 143
12.6.1 動機 143
12.6.2 實現 145
12.7 反饋 145
第13章 臥庫表,隱網路 146
13.1 成本分配模型 147
13.2 組合展開微妙的作用 150
13.3 隱藏網路的浮現 151
13.4 存儲圖表 151
13.5 利用Gremlin遍歷圖表 152
13.6 在網路屬性里尋找價值 154
13.7 從多重數據模型角度考慮並使用正確的工具 155
13.8 致謝 155
第14章 雲計算神話 156
14.1 關於雲的介紹 156
14.2 何謂“雲” 156
14.3 雲和大數據 157
14.4 Fred的故事 157
14.4.1 起初一切都好 157
14.4.2 基礎結構全部放在雲端 158
14.4.3 隨著規模增長,最初的擴展很輕鬆 158
14.4.4 麻煩出現了 158
14.4.5 需要提高性能 158
14.4.6 關鍵要提高RAID 10性能 158
14.4.7 重要的局部運行中斷引發長期停機 159
14.4.8 有代價的RAID 10 159
14.4.9 數據規模增大 160
14.4.10 地理冗餘成為首選 160
14.4.11 水平擴展並不像想像得那么簡單 160
14.4.12 成本顯著增長 160
14.5 Fred的荒唐事 161
14.5.1 神話1:雲是所有基礎設施組件的解決方案 161
該神話與Fred故事的聯繫 161
14.5.2 神話2:雲可以節約成本 161
該神話與Fred的故事的聯繫 162
14.5.3 神話3:通過RAID可以將cloud 10的性能提高至可接受的水平 163
該神話與Fred故事的聯繫 163
14.5.4 神話4:雲計算使水平擴展輕鬆 163
該神話與Fred故事的聯繫 164
14.6 結論和推薦 164
第15章 數據科學的陰暗面 165
15.1 避開這些陷阱 165
15.1.1 對數據一無所知 166
15.1.2 應該只為數據科學家提供一種工具來解決所有問題 167
15.1.3 應該為了分析而分析 169
15.1.4 應該學會分享 169
15.1.5 應該期望數據科學家無所不能 170
15.2 數據學家在機構中的位置 170
15.3 最後的想法 171
第16章 如何僱傭機器學習專家 172
16.1 確定問題 172
16.2 模型測試 173
16.3 創建訓練集 174
16.4 選擇特徵 175
16.5 數據編碼 176
16.6 訓練集、測試集和解決方案集 176
16.7 問題描述 177
16.8 回答問題 178
16.9 整合解決方案 178
16.10 小結 179
第17章 數據的可追蹤性 180
17.1 原因 180
17.2 個人經驗 181
17.2.1 快照 181
17.2.2 保存數據源 181
17.2.3 衡量數據源 182
17.2.4 逆向恢複數據 182
17.2.5 分階段處理數據並保持各階段的獨立性 182
17.2.6 識別根源 183
17.2.7 尋找要完善的區域 183
17.3 不變性:從函式程式設計借來的理念 183
17.4 案例 184
17.4.1 網路爬蟲 184
17.4.2 改變 185
17.4.3 聚類 185
17.4.4 普及度 185
17.5 小結 186
第18章 社交媒體:是可抹去的印記嗎 187
18.1 社交媒體:到底是誰的數據 188
18.2 管控 188
18.3 商業重組 190
18.4 對溝通和表達的期望 190
18.5 新的最終用戶期望的技術含義 192
18.6 這個行業是做什麼的 194
18.6.1 驗證API 195
18.6.2 更新通知API 195
18.7 最終用戶做什麼 195
18.8 我們怎樣一起工作 196
第19章 揭秘數據質量分析:了解什麼時候數據足夠優質 197
19.1 框架介紹:數據質量分析的4個C 198
19.1.1 完整性 199
19.1.2 一致性 201
19.1.3 準確性 203
19.1.4 可解釋性 205
19.2 結論 208

相關詞條

熱門詞條

聯絡我們