《品味大數據》是2016年10月1日北京大學出版社出版的圖書,作者是張玉宏。
編輯推薦,內容簡介,作者簡介,目錄,
編輯推薦
《品味大數據》與市面上圖書不同的是從多維度對大數據的歷史、內涵、哲學與技術四個方面對大數據進行了深入的探討,用百位大牛的觀點論辯來幫助讀者形成自己的大數據認知體系。
圖書行文幽默、結構完整、圖文並茂通俗易懂,讓讀者寓學于樂。
率先採用正反辯論的方法對觀點形成闡述,讓讀者可以從辯證的角度去品味大數據。
內容簡介
當下,大數據是一個熱門的話題,很多領域的學者,從不同的角度進行了深入的討論。《品味大數據》從大數據的歷史、內涵、哲學和技術四個角度,全面解析大數據,讓讀者對大數據有更深入的了解。
全書共11章,大致分為4塊:第1-3章主要漫談了大數據的有趣的歷史,包括數據的啟蒙、信息載體的演變和數據管理的發展脈絡。第4-6章主要聊聊大數據的內涵,包括大數據與哲學及第四科學範式的關聯。第7-9張是大數據的雜談,包括大數據的用途、可能面臨的陷阱以及通過小故事對大數據進行一些反思,第10-11章主要涉及大數據的技術,包括100餘篇大數據論文的漫讀及Hadoop的初級實戰篇。
圖書結構完整,行文幽默,並以圖文並茂、通俗易懂的方式力圖讓讀者心有餘地品味大數據。圖書援引了數以百計大家牛人的觀點,或褒或貶,高手過招,精彩紛呈,是一本不容讀者錯過的大數據圖書。
作者簡介
張玉宏 留美博士,曾跟隨導師Alok Choudhary教授參加了歐巴馬總統辦公室有關Big Data(大數據)研討會。現執教於河南工業大學,中國計算機協會(CCF)會員,ACM/IEEE會員。主要研究方向為高性能計算、生物信息學。在國內外國際期刊發表學術論文15篇,出版國外學術專著2部。
目錄
序 在路上,學而時習之
第一章 大數據簡史漫談之一——數字的來源及數據思維的發展
1.1 人類的“數覺”與計數系統.. 2
1.2 關於二進制的一點討論.. 7
1.3 數字捉夜堡的誕生與廣泛套用的匹配法.. 10
1.4 數學的“問世”與“算法”的祖師爺. 12
1.5 文字的“出爐”與羅馬語言的來歷 14
1.6 古代的數據嫌束狼保存之道與文言文的“無奈”精簡.. 17
1.7 古代的“數據中心”——圖書館 20
1.8 古代計算工具的誕生及其演變. 22
1.9 統計學誕生——數據思維的漸起.. 29
1.10 美國式的人口普查——大數據催生新技術 36
1.11 中國式的人口統計與數目字管理. 38
1.12 本章小結與思考. 42
第二章 大數據簡史漫談之二——近代存儲體系發展中的那些人和事
2.1 數據複製與傳播中的問題及解決方案 45
2.2 影響人類發展進程的幾次能源革命 47
2.3 不能遺忘的電氣時代的傳奇——特斯拉 50
2.4 霍爾瑞斯的穿孔卡 57
2.5 現代通用計算機的奠基者——圖靈和馮·諾伊曼.. 60
2.6 波弗勞姆的磁帶發明. 64
2.7 華人王安電腦的磁芯存儲器. 65
2.8 IBM 的傳奇磁存儲世界 .. 68
2.9 網路存儲世蜜櫃您界的興起 71
2.10 本章小結與思考 72
第三章 大數據簡史漫談之三——資料庫的發展與大數據的興起 / 74
3.1 近代“數據中心”之夢殤.. 74
3.2 “窮”則思變之網狀資料庫 76
3.3 濃墨重彩之關係資料庫. 78
3.4 突破數據共享封鎖線的領頭人.. 83
3.5 高手對決的數據倉庫領域兩俠客 85
3.6 向非結構化進發的數據大趨勢. 87
3.7 大數據術語少罪堡拒的歷史淵源. 95
3.8 現代大數據的誕生. 97
3.9 在混沌和秩序轉化中螺旋上升 101
3.10 本章小結與思考. 102
第四章驗符榜 大數據歡才盛艱的內涵
4.1 從數據、信息到知識、智慧的飛躍.. 104
4.2 大數據的多版本定義 108
4.3 大數據洪漏——新時代的生產資料.. 111
4.4 信息(數據)化、第二經濟與數據思維的轉變.. 114
4.5 大數據——來自學術界的青睞. 118
4.6 大數據——來自政府層面的重視.. 119
4.7 大數據——來自工商業的熱捧.. 120
4.8 大數據內涵——“豈止於大”.. 122
4.9 本章小結與思考. 137
第五章 大數據時代的一點哲學思考
5.1 哲學與科學的關係——為什麼計算機專業博士也發個哲學文憑(Ph.D) 140
5.2 大、小數據的“質”不同.. 143
5.3 大數據的數理哲學基礎——同構關係.. 146
5.4 大數據認識主體的變化——“替人消災”式的認識能免責嗎.. 149
5.5 波普爾的世界3——秦始皇的長生夢,找錯了空間. 151
5.6 大數據認識對象的變化——提升普羅大眾的權重:“長尾理論”. 153
5.7 認識論對大數據研究的指導意義 156
5.8 本章小結與思考. 166
第六章 大數據研究的第四範式
6.1 谷歌公司的“不務正業” 167
6.2 塞吉·布林的“秘密”病情.. 169
6.3 布林病情的“治療”方案. 171
6.4 詹姆斯·格雷的科學第四範式.. 173
6.5 科學研究的其他三個範式.. 175
6.6 本章小結與思考.. 182
第七章 大數據,大有為
7.1 洞察帶來價值 184
7.2 案例1 :谷歌是如何“越俎代庖”地預測流感的. 186
7.3 案例2 :“全數據”是如何為葉詩文抱不平的. 194
7.4 案例3 :大數據是如何對抗癌症的 201
7.5 更多大數據套用案例. 211
7.6 本章小結與思考.. 215
第八章 大數據之坑與小數據之美
8.1 引子——哪個V 才是大數據最重要的特徵.. 219
8.2 大數據的力量與陷阱. 223
8.3 本章小結與思考 235
第九章 12 個小故事,思考大數據
9.1 故事1 :大數據都是騙人的啊——大數據預測得準嗎 238
9.2 故事2 :顛簸的街道——對不起,“n=all”只是一個幻覺. 240
9.3 故事3 :醉漢路燈下找鑰匙——大數據的研究方法可笑嗎 . 241
9.4 故事4 :園中有金不在金——大數據的價值 242
9.5 故事5 :蓋洛普抽樣的成功——大小之爭,“大”數據一定勝過小抽樣嗎.. 243
9.6 故事6 :點球成金——數據流PK 球探,誰更重要 245
9.7 故事7 :啤酒和尿布——經典故事是偽造的,你知道嗎 246
9.8 故事8 :谷歌流感預測——預測是如何失效的 248
9.10 故事10 :你的一夜情我知道——大數據的隱私之痛. 252
9.11 故事11 :大數據,無須懼——比薩店員更能知道顧客所有的信息嗎254
9.12 故事12 :撲朔離迷的“因果關係”——蘇格拉底的“詭辯術”.. 259
9.13 本章小結與思考262
第十章 大數據技術漫談——需要讀懂的103 篇大數據文獻
10.1 大數據價值的實現.. 263
10.2 大數據分析的關鍵架構層 264
10.3 架構的演進.. 267
10.4 幾個重要的概念 273
10.5 檔案系統層.. 288
10.6 數據存儲層.. 297
10.7 資源管理器層(Resource Managers). 304
10.8 調度器(Schedulers).. 305
10.9 協調器(Coordination).. 306
10.10 計算框架(Computational Frameworks). 308
10.11 數據分析層(Data Analysis) 321
10.12 數據集成層(Data Integration) 323
10.13 操作框架層(Operational Frameworks). 326
10.14 本章小結與思考. 327
第十一章 牛刀小試之Hadoop 實戰
11.1 什麼是Hadoop.. 329
11.2 Hadoop 發展歷程.. 329
11.3 Hadoop 集群伺服器的安裝與配置.. 332
11.4 運行Hello World 版Hadoop 程式——WordCount.. 362
11.5 全分布模式下的Hadoop 集群構建.. 366
11.6 WordCount 代碼詳解 397
11.7 本章小結與思考. 405
後 記
2.4 霍爾瑞斯的穿孔卡 57
2.5 現代通用計算機的奠基者——圖靈和馮·諾伊曼.. 60
2.6 波弗勞姆的磁帶發明. 64
2.7 華人王安電腦的磁芯存儲器. 65
2.8 IBM 的傳奇磁存儲世界 .. 68
2.9 網路存儲世界的興起 71
2.10 本章小結與思考 72
第三章 大數據簡史漫談之三——資料庫的發展與大數據的興起 / 74
3.1 近代“數據中心”之夢殤.. 74
3.2 “窮”則思變之網狀資料庫 76
3.3 濃墨重彩之關係資料庫. 78
3.4 突破數據共享封鎖線的領頭人.. 83
3.5 高手對決的數據倉庫領域兩俠客 85
3.6 向非結構化進發的數據大趨勢. 87
3.7 大數據術語的歷史淵源. 95
3.8 現代大數據的誕生. 97
3.9 在混沌和秩序轉化中螺旋上升 101
3.10 本章小結與思考. 102
第四章 大數據的內涵
4.1 從數據、信息到知識、智慧的飛躍.. 104
4.2 大數據的多版本定義 108
4.3 大數據——新時代的生產資料.. 111
4.4 信息(數據)化、第二經濟與數據思維的轉變.. 114
4.5 大數據——來自學術界的青睞. 118
4.6 大數據——來自政府層面的重視.. 119
4.7 大數據——來自工商業的熱捧.. 120
4.8 大數據內涵——“豈止於大”.. 122
4.9 本章小結與思考. 137
第五章 大數據時代的一點哲學思考
5.1 哲學與科學的關係——為什麼計算機專業博士也發個哲學文憑(Ph.D) 140
5.2 大、小數據的“質”不同.. 143
5.3 大數據的數理哲學基礎——同構關係.. 146
5.4 大數據認識主體的變化——“替人消災”式的認識能免責嗎.. 149
5.5 波普爾的世界3——秦始皇的長生夢,找錯了空間. 151
5.6 大數據認識對象的變化——提升普羅大眾的權重:“長尾理論”. 153
5.7 認識論對大數據研究的指導意義 156
5.8 本章小結與思考. 166
第六章 大數據研究的第四範式
6.1 谷歌公司的“不務正業” 167
6.2 塞吉·布林的“秘密”病情.. 169
6.3 布林病情的“治療”方案. 171
6.4 詹姆斯·格雷的科學第四範式.. 173
6.5 科學研究的其他三個範式.. 175
6.6 本章小結與思考.. 182
第七章 大數據,大有為
7.1 洞察帶來價值 184
7.2 案例1 :谷歌是如何“越俎代庖”地預測流感的. 186
7.3 案例2 :“全數據”是如何為葉詩文抱不平的. 194
7.4 案例3 :大數據是如何對抗癌症的 201
7.5 更多大數據套用案例. 211
7.6 本章小結與思考.. 215
第八章 大數據之坑與小數據之美
8.1 引子——哪個V 才是大數據最重要的特徵.. 219
8.2 大數據的力量與陷阱. 223
8.3 本章小結與思考 235
第九章 12 個小故事,思考大數據
9.1 故事1 :大數據都是騙人的啊——大數據預測得準嗎 238
9.2 故事2 :顛簸的街道——對不起,“n=all”只是一個幻覺. 240
9.3 故事3 :醉漢路燈下找鑰匙——大數據的研究方法可笑嗎 . 241
9.4 故事4 :園中有金不在金——大數據的價值 242
9.5 故事5 :蓋洛普抽樣的成功——大小之爭,“大”數據一定勝過小抽樣嗎.. 243
9.6 故事6 :點球成金——數據流PK 球探,誰更重要 245
9.7 故事7 :啤酒和尿布——經典故事是偽造的,你知道嗎 246
9.8 故事8 :谷歌流感預測——預測是如何失效的 248
9.10 故事10 :你的一夜情我知道——大數據的隱私之痛. 252
9.11 故事11 :大數據,無須懼——比薩店員更能知道顧客所有的信息嗎254
9.12 故事12 :撲朔離迷的“因果關係”——蘇格拉底的“詭辯術”.. 259
9.13 本章小結與思考262
第十章 大數據技術漫談——需要讀懂的103 篇大數據文獻
10.1 大數據價值的實現.. 263
10.2 大數據分析的關鍵架構層 264
10.3 架構的演進.. 267
10.4 幾個重要的概念 273
10.5 檔案系統層.. 288
10.6 數據存儲層.. 297
10.7 資源管理器層(Resource Managers). 304
10.8 調度器(Schedulers).. 305
10.9 協調器(Coordination).. 306
10.10 計算框架(Computational Frameworks). 308
10.11 數據分析層(Data Analysis) 321
10.12 數據集成層(Data Integration) 323
10.13 操作框架層(Operational Frameworks). 326
10.14 本章小結與思考. 327
第十一章 牛刀小試之Hadoop 實戰
11.1 什麼是Hadoop.. 329
11.2 Hadoop 發展歷程.. 329
11.3 Hadoop 集群伺服器的安裝與配置.. 332
11.4 運行Hello World 版Hadoop 程式——WordCount.. 362
11.5 全分布模式下的Hadoop 集群構建.. 366
11.6 WordCount 代碼詳解 397
11.7 本章小結與思考. 405
後 記