基本介紹
- 書名:大數據原理:複雜信息的準備、共享和分析
- 作者:[美] 朱爾斯 J. 伯曼(Jules J. Berman) 著
- ISBN:978-7-111-57216-9
- 出版時間:2017-07
基本信息,內容簡介,目錄,
基本信息
作者:[美] 朱爾斯 J. 伯曼(Jules J. Berman) 著 |
ISBN(書號):978-7-111-57216-9 |
叢書名:數據科學與工程技術叢書 |
出版日期:2017-07 |
版次:1/1 |
開本:16 |
定價:¥79.00 |
內容簡介
當大數據資源變得越發複雜時,僅靠更強大的計算機系統已無法解決問題。本書帶我們重新審視數據準備環節,重點討論了其中至關重要但又常常被忽略的主題——標識符、不變性、內省和數據索引。此外,書中也涵蓋常見的與大數據設計、架構、操作和分析相關的內容,以及涉及法律、社會和倫理問題的非技術性章節。全書視角獨特,涉獵廣博,尤以醫學大數據分析見長,強調基本原理,不關注編程細節和數學公式,適合企業決策者、技術專家以及計算機相關專業的學生閱讀。
目錄
譯者序
前言
作者簡介
第0章 引言1
0.1 大數據的定義2
0.2 大數據VS小數據2
0.3 大數據在哪裡4
0.4 大數據最常見的目的是產生小數據5
0.5 機會6
0.6 大數據成為信息宇宙的中心6
第1章 為非結構化數據提供結構8
1.1 背景8
1.2 機器翻譯9
1.3 自動編碼11
1.4 索引14
1.5 術語提取16
第2章 標識、去標識和重標識19
2.1 背景19
2.2 標識符系統的特徵20
2.3 註冊唯一對象標識符21
2.4 糟糕的標識方法24
2.5 在標識符中嵌入信息:不推薦25
2.6 單向哈希函式26
2.7 案例:醫院登記27
2.8 去標識化28
2.9 數據清洗29
2.10 重標識30
2.11 經驗教訓31
第3章 本體論和語義學32
3.1 背景32
3.2 分類:最簡單的本體32
3.3 本體:有多個父類的類34
3.4 分類模型選擇35
3.5 資源描述框架模式簡介38
3.6 本體開發的常見陷阱40
第4章 內省42
4.1 背景42
4.2 自我認知42
4.3 可擴展標記語言44
4.4 meaning簡介45
4.5 命名空間與有意義的聲明集合體46
4.6 資源描述框架三元組47
4.7 映射49
4.8 案例:可信時間戳50
4.9 總結50
第5章 數據集成和軟體互操作性52
5.1 背景52
5.2 調查標準委員會53
5.3 標準軌跡53
5.4 規範與標準56
5.5 版本控制58
5.6 合規問題60
5.7 大數據資源接口60
第6章 不變性和永久性62
6.1 背景62
6.2 不變性和標識符63
6.3 數據對象64
6.4 遺留數據65
6.5 數據產生數據67
6.6 跨機構協調標識符67
6.7 零知識協調68
6.8 管理者的負擔69
第7章 測量70
7.1 背景70
7.2 計數70
7.3 基因計數72
7.4 處理否定73
7.5 理解控制74
7.6 測量的實踐意義75
7.7 強迫症:偉大數據管理員的標誌76
第8章 簡單有效的大數據技術77
8.1 背景77
8.2 觀察數據78
8.3 數據範圍85
8.4 分母87
8.5 頻率分布89
8.6 均值和標準差92
8.7 估計分析94
8.8 案例:用谷歌Ngram發現數據趨勢95
8.9 案例:預測觀眾的電影偏好97
第9章 分析99
9.1 背景99
9.2 分析任務99
9.3 聚類、分類、推薦和建模100
9.3.1 聚類算法100
9.3.2 分類算法101
9.3.3 推薦算法101
9.3.4 建模算法101
9.4 數據約簡103
9.5 數據標準化和調整105
9.6 大數據軟體:速度和可擴展性107
9.7 尋找關係而非相似之處108
第10章 大數據分析中的特殊注意事項111
10.1 背景111
10.2 數據搜尋理論111
10.3 理論搜尋中的數據112
10.4 過度擬合113
10.5 巨大的偏差113
10.6 數據太多116
10.7 數據修復116
10.8 大數據的數據子集:不可加和不傳遞117
10.9 其他大數據缺陷117
第11章 逐步走進大數據分析120
11.1 背景120
11.2 步驟1:制定一個問題120
11.3 步驟2:資源評價121
11.4 步驟3:重新制定一個問題121
11.5 步驟4:查詢輸出充分性122
11.6 步驟5:數據描述122
11.7 步驟6:數據約簡123
11.8 步驟7:必要時選擇算法123
11.9 步驟8:結果評估和結論斷言124
11.10 步驟9:結論審查和驗證125
第12章 失敗127
12.1 背景127
12.2 失敗很常見128
12.3 失敗的標準128
12.4 複雜性131
12.5 複雜性何時起作用132
12.6 冗餘失敗的情況132
12.7 保護錢,不保護無害信息133
12.8 失敗之後134
12.9 案例:癌症生物醫學信息學格線—遙遠的橋135
第13章 合法性140
13.1 背景140
13.2 對數據的準確性和合法性負責140
13.3 創建、使用和共享資源的權利141
13.4 因使用標準而招致的著作權和專利侵權行為143
13.5 對個人的保護144
13.6 許可問題145
13.7 未經許可的數據148
13.8 好政策是有力保障150
13.9 案例:哈瓦蘇派的故事151
第14章 社會問題153
14.1 背景153
14.2 大數據感知153
14.3 數據共享155
14.4 用大數據降低成本和提高生產效率158
14.5 公眾的疑慮160
14.6 從自己做起161
14.7 傲慢和誇張162
第15章 未來164
15.1 背景164
15.1.1 大數據計算複雜,需要新一代超級計算機?165
15.1.2 大數據的複雜程度將超出我們完全理解或信任的能力範圍?166
15.1.3 我們需要用超級計算中的最新技術訓練出一支計算機科學家組成的團隊嗎?166
15.1.4 大數據會創建出那些目前沒有訓練程式的新型數據專業人員嗎?166
15.1.5 是否有將數據表示方法通過統一的標準規範化,從而支持跨網路大數據資源的數據集成和軟體互操作性的可能?169
15.1.6 大數據將向公眾開放?169
15.1.7 大數據弊大於利?170
15.1.8 我們可以預測大數據災難會破壞至關重要的服務、削弱國家經濟、破壞世界政治的穩定嗎?171
15.1.9 大數據可以回答那些其他辦法不能解決的問題嗎?171
15.2 後記171
術語表172
參考文獻188
索引196
前言
作者簡介
第0章 引言1
0.1 大數據的定義2
0.2 大數據VS小數據2
0.3 大數據在哪裡4
0.4 大數據最常見的目的是產生小數據5
0.5 機會6
0.6 大數據成為信息宇宙的中心6
第1章 為非結構化數據提供結構8
1.1 背景8
1.2 機器翻譯9
1.3 自動編碼11
1.4 索引14
1.5 術語提取16
第2章 標識、去標識和重標識19
2.1 背景19
2.2 標識符系統的特徵20
2.3 註冊唯一對象標識符21
2.4 糟糕的標識方法24
2.5 在標識符中嵌入信息:不推薦25
2.6 單向哈希函式26
2.7 案例:醫院登記27
2.8 去標識化28
2.9 數據清洗29
2.10 重標識30
2.11 經驗教訓31
第3章 本體論和語義學32
3.1 背景32
3.2 分類:最簡單的本體32
3.3 本體:有多個父類的類34
3.4 分類模型選擇35
3.5 資源描述框架模式簡介38
3.6 本體開發的常見陷阱40
第4章 內省42
4.1 背景42
4.2 自我認知42
4.3 可擴展標記語言44
4.4 meaning簡介45
4.5 命名空間與有意義的聲明集合體46
4.6 資源描述框架三元組47
4.7 映射49
4.8 案例:可信時間戳50
4.9 總結50
第5章 數據集成和軟體互操作性52
5.1 背景52
5.2 調查標準委員會53
5.3 標準軌跡53
5.4 規範與標準56
5.5 版本控制58
5.6 合規問題60
5.7 大數據資源接口60
第6章 不變性和永久性62
6.1 背景62
6.2 不變性和標識符63
6.3 數據對象64
6.4 遺留數據65
6.5 數據產生數據67
6.6 跨機構協調標識符67
6.7 零知識協調68
6.8 管理者的負擔69
第7章 測量70
7.1 背景70
7.2 計數70
7.3 基因計數72
7.4 處理否定73
7.5 理解控制74
7.6 測量的實踐意義75
7.7 強迫症:偉大數據管理員的標誌76
第8章 簡單有效的大數據技術77
8.1 背景77
8.2 觀察數據78
8.3 數據範圍85
8.4 分母87
8.5 頻率分布89
8.6 均值和標準差92
8.7 估計分析94
8.8 案例:用谷歌Ngram發現數據趨勢95
8.9 案例:預測觀眾的電影偏好97
第9章 分析99
9.1 背景99
9.2 分析任務99
9.3 聚類、分類、推薦和建模100
9.3.1 聚類算法100
9.3.2 分類算法101
9.3.3 推薦算法101
9.3.4 建模算法101
9.4 數據約簡103
9.5 數據標準化和調整105
9.6 大數據軟體:速度和可擴展性107
9.7 尋找關係而非相似之處108
第10章 大數據分析中的特殊注意事項111
10.1 背景111
10.2 數據搜尋理論111
10.3 理論搜尋中的數據112
10.4 過度擬合113
10.5 巨大的偏差113
10.6 數據太多116
10.7 數據修復116
10.8 大數據的數據子集:不可加和不傳遞117
10.9 其他大數據缺陷117
第11章 逐步走進大數據分析120
11.1 背景120
11.2 步驟1:制定一個問題120
11.3 步驟2:資源評價121
11.4 步驟3:重新制定一個問題121
11.5 步驟4:查詢輸出充分性122
11.6 步驟5:數據描述122
11.7 步驟6:數據約簡123
11.8 步驟7:必要時選擇算法123
11.9 步驟8:結果評估和結論斷言124
11.10 步驟9:結論審查和驗證125
第12章 失敗127
12.1 背景127
12.2 失敗很常見128
12.3 失敗的標準128
12.4 複雜性131
12.5 複雜性何時起作用132
12.6 冗餘失敗的情況132
12.7 保護錢,不保護無害信息133
12.8 失敗之後134
12.9 案例:癌症生物醫學信息學格線—遙遠的橋135
第13章 合法性140
13.1 背景140
13.2 對數據的準確性和合法性負責140
13.3 創建、使用和共享資源的權利141
13.4 因使用標準而招致的著作權和專利侵權行為143
13.5 對個人的保護144
13.6 許可問題145
13.7 未經許可的數據148
13.8 好政策是有力保障150
13.9 案例:哈瓦蘇派的故事151
第14章 社會問題153
14.1 背景153
14.2 大數據感知153
14.3 數據共享155
14.4 用大數據降低成本和提高生產效率158
14.5 公眾的疑慮160
14.6 從自己做起161
14.7 傲慢和誇張162
第15章 未來164
15.1 背景164
15.1.1 大數據計算複雜,需要新一代超級計算機?165
15.1.2 大數據的複雜程度將超出我們完全理解或信任的能力範圍?166
15.1.3 我們需要用超級計算中的最新技術訓練出一支計算機科學家組成的團隊嗎?166
15.1.4 大數據會創建出那些目前沒有訓練程式的新型數據專業人員嗎?166
15.1.5 是否有將數據表示方法通過統一的標準規範化,從而支持跨網路大數據資源的數據集成和軟體互操作性的可能?169
15.1.6 大數據將向公眾開放?169
15.1.7 大數據弊大於利?170
15.1.8 我們可以預測大數據災難會破壞至關重要的服務、削弱國家經濟、破壞世界政治的穩定嗎?171
15.1.9 大數據可以回答那些其他辦法不能解決的問題嗎?171
15.2 後記171
術語表172
參考文獻188
索引196