數據天才:數據科學家修煉之道

數據天才:數據科學家修煉之道

《數據天才:數據科學家修煉之道》一書原作者Vincent Granville(文森特·格蘭維爾),中文版由吳博、張曉峰、季春霖譯,電子工業出版社2017年5月出版

基本介紹

  • 書名:數據天才:數據科學家修煉之道
  • 作者:【美】Vincent Granville(文森特·格蘭維爾)
  • 譯者:吳博 張曉峰 季春霖
  • ISBN:978-7-121-30883-3
  • 頁數:356
  • 定價:85.00
  • 出版社:電子工業出版社
  • 出版時間:2017年5月
  • 開本:16
內容提要,目錄,

內容提要

這是一本跟數據科學和數據科學家有關的“手冊”,它還包含傳統統計學、編程或計算機科學教科書中所沒有的信息。
《數據天才:數據科學家修煉之道》有3個組成部分:一是多層次地討論數據科學是什麼,以及數據科學涉及哪些其他學科;二是數據科學的技術套用層面,包括教程和案例研究;三是給正在從業和有抱負的數據科學家介紹一些職業資源。《數據天才:數據科學家修煉之道》中有很多職業和培訓相關資源(如數據集、網路爬蟲原始碼、數據視頻和如何編寫API),所以藉助《數據天才:數據科學家修煉之道》,你現在就可以開始數據科學實踐,並快速地提升你的職業水平。
《數據天才:數據科學家修煉之道》是寫給數據科學家和相關專業人士的(如業務分析師、計算機科學家、軟體工程師、數據工程師和統計學家),也適合有興趣轉投大數據科學事業的人閱讀。

目錄

第1章 數據科學是什麼 1
-真偽數據科學對比 2
- - 偽數據科學的兩個例子 5
- - 新大學的面貌 7
-數據科學家 10
- - 數據科學家與數據工程師 10
- - 數據科學家與統計學家 12
- - 數據科學家與業務分析師 13
-13個真實世界情景中的數據科學套用 14
- - 情景1:國家對烈性酒銷售的壟斷結束後,DUI(酒後駕駛)逮捕量減少 15
- - 情景2:數據科學與直覺 17
- - 情景3:數據故障將數據變成亂碼 19
- - 情景4:異常空間的回歸 21
- - 情景5:分析與誘導在提升銷量上有何不同價值 22
- - 情景6:關於隱藏數據 24
- - 情景7:汽油中的鉛會導致高犯罪率。真的嗎 25
- - 情景8:波音787(夢幻客機)問題 26
- - 情景9:NLP的7個棘手句子 27
- - 情景10:數據科學家決定著我們所吃的食品 28
- - 情景11:用較好的相關性增加亞馬遜的銷售量 30
- - 情景12:檢測Facebook上的假檔案或假“喜歡”數 32
- - 情景13:餐廳的分析 33
-數據科學的歷史、開拓者和現代趨勢 33
- - 統計學將會復興 34
- - 歷史與開拓者 36
- - 現代的趨勢 38
- - 最近的問答討論 40
-總結 44
第2章 大數據的獨特性 45
-兩個大數據的問題 45
- - 大數據“詛咒” 45
- - 數據快速流動問題 50
-大數據技術示例 56
- - 大數據問題是數據科學所面臨挑戰的縮影 56
- - 大規模數據集的聚類和分類 58
- - 1億行的Excel 63
-MapReduce不能做什麼 67
- - 問題 67
- - 3種解決方案 68
- - 結論:何時使用MapReduce 69
-溝通問題 70
-數據科學:統計學的終結 72
- - 8種最差的預測建模技術 72
- - 把計算機科學、統計學和行業專業知識結合在一起 74
-大數據生態系統 78
-總結 79
第3章 成為一名數據科學家 80
-數據科學家的主要特徵 80
- - 數據科學家的職能 80
- - 橫向與縱向數據科學家 83
-數據科學家的類型 86
- - 偽數據科學家 86
- - 自學成才的數據科學家 86
- - 業餘數據科學家 87
- - 極限數據科學家 89
-數據科學家人群特徵 90
-數據科學方面的培訓 91
- - 大學課程 91
- - 公司和協會培訓項目 95
- - 免費培訓項目 96
-數據科學家職業道路 98
- - 獨立顧問 98
- - 創業者 105
-總結 118
第4章 數據科學的技術(I) 119
-新型指標 120
- - 最佳化數字行銷活動的指標 121
- - 欺詐檢測的指標 122
-選擇合適的分析工具 124
- - 分析軟體 124
- - 可視化工具 125
- - 實時產品 126
- - 程式語言 128
-可視化 128
- - 用R生成數據視頻 129
- - 更複雜的視頻 133
-無模型的統計建模 134
- - 無模型的統計建模是什麼 135
- - 該算法是如何工作的 135
- - 原始碼生成數據集 137
-三類指標:中心性、波動性、顛簸性 137
- - 中心性、波動性和顛簸性之間的關係 138
- - 定義顛簸性 138
- - 在Excel中計算顛簸性 139
- - 使用顛簸係數 141
-大數據的統計聚類 141
-大數據的相關性和擬合度 143
- - 一系列新的秩相關性 146
- - 漸近分布與歸一化 148
- - -計算複雜度 152
- - 計算q(n) 152
- - 理論上的解決方案 155
-結構係數 156
-確定簇的數量 157
- - 方法 157
- - 例子 158
-網路拓撲映射 159
-安全通信:數據加密 163
-總結 166
第5章 數據科學的技術(II) 167
-數據字典 168
- - 什麼是數據字典 168
- - 建立數據字典 169
-隱性決策樹 169
- - 實現方法 171
- - 示例:網際網路流量打分 173
- - 結論 175
-與模型無關的置信區間 175
- - 方法 175
- - 分析橋第一定理 176
- - 套用 177
- - 原始碼 178
-隨機數 179
-解決問題的4個辦法 181
- - 擁有超強直覺能力的業務分析師的直觀法 182
- - 軟體工程師的蒙特卡洛模擬法 182
- - 統計學家的統計建模方法 183
- - 計算機科學家的大數據方法 183
-因果關係和相關性 183
-怎樣檢測因果關係 184
-數據科學項目的生命周期 186
-預測模型的錯誤 189
-邏輯相關回歸 191
- - 變數之間的相互作用 191
- - 一階近似 191
- - 二階近似 193
- - 用Excel進行回歸分析 195
-實驗設計 196
- - 有趣的指標 196
- - 把患者分成不同的人群進行治療 196
- - 私人定製的治療 197
-分析即服務和應用程式接口 198
- - 工作原理 199
- - 實施案例 199
- - 關鍵字相關的API的原始碼 200
-其他主題 204
- - 當資料庫改變時,保存好數值 204
- - 最佳化網路爬蟲 205
- - 哈希連線 206
- - 用於模擬簇的簡單原始碼 207
-Hadoop和大數據的新型合成方差 208
- - Hadoop和MapReduce的介紹 208
- - 綜合指標 209
- - Hadoop、數值的和統計的穩定性 210
- - 方差的抽象概念 211
- - 一個新的大數據定理 213
- - 平移不變性的度量標準 214
- - 實現:通信和計算成本 214
- - 最終意見 215
-總結 215
第6章 數據科學套用案例研究 217
-股票市場 217
- - 使回報率提高500%的模式 217
- - 最佳化統計交易策略 220
- - 股票交易的API:統計模型 222
- - 股票交易的API:具體實現 225
- - 股票市場模擬 226
- - 些許數學知識 229
- - 新趨勢 231
-加密 232
- - 數據科學套用:隱寫術 232
- - 好的電子郵件加密 236
- - 驗證碼破解 239
-欺詐檢測 240
- - 點擊欺詐 241
- - 連續點擊評分與二進制欺詐/非欺詐 242
- - 數學模型與基準 244
- - 虛假轉化產生的偏差 245
- - 一些誤解 246
- - 統計面臨的挑戰 246
- - 點擊評分最佳化關鍵字出價 247
- - 組合最佳化自動快速的特徵選擇 249
- - 特徵的預測能力:交叉驗證 250
- - 勾連檢測和殭屍網路的關聯規則檢測 254
- - 模式檢測的極值理論 255
-數字分析 256
- - 線上廣告:到達率和頻率的計算公式 256
- - 電子郵件行銷:提高300%的性能 257
- - 在7天內最佳化關鍵字廣告宣傳活動 258
- - 自動新聞提要最佳化 260
- - 用bit-ly進行競爭情報分析 261
- - 測量 Twitter 哈希標籤(hashtag)的收益 263
- - 用3個修補方法提升谷歌搜尋 267
- - 改進相關性的算法 270
- - 廣告循環問題 272
-雜項 273
- - 簡單模型會獲得更好的銷售預測 273
- - 更好的醫療欺詐檢測 275
- - 歸因模型 276
- - 預測隕石撞擊 277
- - 在路口停車場收集數據 281
- - 數據科學的其他套用 282
-總結 282
第7章 踏上你的數據科學職業之路 283
-面試問題 283
- - 關於工作經驗的問題 283
- - 技術問題 285
- - 一般性問題 286
- - 關於數據科學項目的問題 288
-測試你自己的視覺和分析思維 291
- - 通過肉眼的檢測模式 292
- - 識別偏差 294
- - 誤導性的時間序列和隨機遊走 295
-從統計學家到數據科學家 296
- - 數據科學家也是統計從業人員 297
- - 誰應該給數據科學家教統計學 298
- - 僱傭問題 298
- - 數據科學家與數據架構師密切合作 299
- - 誰應該參與戰略思考 299
- - 兩種類型的統計學家 300
- - 大數據與取樣 301
-數據科學家的分類 302
- - 數據科學最流行的技能集合 302
- - LinkedIn上的頂級數據科學家 306
-400個數據科學家職位頭銜 309
-薪酬調查 311
- - 根據技能和位置的薪酬分類 312
- - 創建自己的薪酬調查表 316
-總結 317
第8章 數據科學資源 318
-專業資源 318
- - 數據集 318
- - 書籍 319
- - 會議與組織 322
- - 網站 324
- - 概念定義 324
-職業建設資源 327
- - 招聘數據科學家的公司 328
- - 數據科學招聘廣告的樣本 329
- - 簡歷樣本 329
-總結 331

熱門詞條

聯絡我們