內容簡介
本選題以科普的方式系統地闡述了
大數據前沿技術與研究進展,對技術的來源、結論、對比、用途以及開源軟體進行了深入淺出的描述,並不過多地涉及數學符號及基礎原理。以大數據可視化為切入點,通過
自然語言處理、社交網路挖掘、狼匙協乃
語義網路與
知識圖譜三方面非結構化數據處理技術,闡述大數據經典套用,利用基於圖資料庫、記憶體計算、
分散式存儲系統的大數據存儲與管理作為大數據平台支撐,進而探討基於眾包技術擴充數據來源與提高數據店凳格設質量,並圍繞大數據環境下的隱私保護問題,探討了大數據安全技術
作者簡介
阮彤,中科院軟體所博士,現任華東理工大學計算機技術研究所副所長,自然語言處理與大數據挖掘實驗室主任,副教授。中國計算機學會(CCF)大鴉轎旬數據專委會委員,中文信息處理學會"CCIR"專委會委員,中關村大數據聯盟學術委員會主任委員。
目錄信息
第1章 大數據可視化 1
1.1?可視化基礎 2
1.1.1?可視化釋義 2
1.1.2?可視化流程 5
1.1.3?可視化對象 6
1.2?大數據可視化介紹 36
1.2.1?大數據可視化特點 37
1.2.2?大尺度數據的可視化 38
1.2.3?快速變化數據的可視化 41
1.2.4?多變數數據的可視化 44
1.2.6?大數據可視分析 53
1.3?可視化與可視分析研發資源 60
1.3.1?代表性開源與商業軟體 60
1.3.2?開發工具與程式語言 61
1.3.3?可視化信息資源 62
1.3.4?部分可視化科研機構 63
參考文獻 64
第2章 文本大數據處理 67
2.1 文本大數據概述 67
2.2?中文詞法分析 70
2.3?句法分析 73
2.4?語義分析 74
2.5?開源項目與共享工具 75
2.6?文本大數據的部分套用 76
2.6.1?概述 76
2.6.2?基於雙數組Trie樹的面向微博短文本的分詞 77
2.6.3?詞義消歧 80
2.6.4?未登錄詞識別 83
2.6.5?文本分類與文本聚類 84
2.6.6?機器翻譯 86
2.6.7?其他套用 87
參考文獻 89
第3章 社交網路大數據挖掘 91
3.1? 概述 91
3.2?大規模異構網路集成 94
3.2.1?計算模型——COSNET 96
3.2.2?模型求解 98
3.2.3?實驗結果 99
3.3?基於互動的網路機器學習 101
3.3.1?網路燥蒸數據的主動互動學習 101
3.3.2?算法模型拘廈芝——MaxCo 102
3.3.3?網路流數據的主動互動學習 103
3.3.4?算法模型 104
3.4?基於隨機路徑的高效網路拓撲相似度算法 106
3.4.1?問題定義 107
3.4.2?基於隨機路徑的網路拓撲相似度算法——Panther 107
3.4.3?實驗結果 110
3.4.4?小結 113
3.5?個體行為與網路分布的統一建模框架——M3D 113
3.5.1?研究方案 114
3.5.2?實驗驗證 115
3.6?總結和展望 117
參考文獻 117
第4章 語義大數據——知識圖譜 119
4.1?大規模知識圖譜技術 119
4.1.1?知識圖譜的表示及其在搜尋中的展現形式 119
4.1.2?知識圖譜的構建 121
4.1.3?知識圖譜在搜尋中的套用 126
4.1.4?總結 127
4.2?行業知識圖譜工具 127
4.2.1?簡介 127
4.2.2?常見的行業知識圖譜 129
4.2.3?行業知識圖譜的構建 131
4.2.4?行業設試汽知識圖譜的套用 139
4.2.5?套用案例 141
第5章 圖資料庫——基於圖的大數據管理 147
5.1?圖資料庫簡介 147
5.1.1?大圖數據 148
5.1.2?OLTP與OLAP 149
5.1.3?圖數據模型 151
5.1.4?圖查詢語言 154
5.2?主流圖資料庫和圖計算引擎 160
5.2.1?最流行的圖資料庫——Neo4j 160
5.2.2?分散式圖資料庫——Titan 161
5.2.3?基於RDF三元組庫的圖資料庫——Blazegraph 162
5.2.4?基於Pregel框架的圖計算引擎——Giraph、Hama、
GraphLab、GraphX 163
5.3?圖資料庫關鍵技術 166
5.3.1?圖資料庫的存霉店斷儲 166
5.3.2?圖資料庫的索引 169
5.3.3?圖資料庫的查詢處理 172
5.4?圖資料庫套用 175
5.4.1?語義全球資訊網 175
5.4.2?社會網路 176
5.4.3?生物信息學 177
第6章 記憶體計算——高速大數據處理的核心技術 179
6.1?記憶體計算技術的一個誤區 179
6.2?TimesTen的設計思路 180
6.3?Apache Spark的設計思路 182
6.4?SAP HANA的設計思路 184
6.5?YunTable 4.0的產品介紹 186
6.5.1?整體架構與核心技術 186
6.5.2?MPP 188
6.5.3?列存2.0 188
6.5.4?動態數據分發 190
6.5.5?記憶體計算 191
6.5.6?性能和路線圖 191
6.6?總結 192
第7章 分散式存儲系統——大數據存儲支撐技術 193
7.1?大數據對存儲系統帶來的挑戰及其引發的變革 193
7.2?谷歌檔案系統(GFS) 194
7.2.1?支持大數據集存取和離線批處理的分散式存儲系統 194
7.2.2?GFS架構分析 195
7.2.3?系統互動 202
7.2.4?主節點的設計 206
7.2.5?容錯和診斷 211
7.2.6?小結 214
7.3?支持海量數據和大規模並發訪問的分散式對象存儲
OpenStack Swift 214
7.3.1?網際網路化帶來新的存儲需求 214
7.3.2?OpenStack Swift的特點 216
7.3.3?Swift的數據模型和架構 219
7.3.4?Swift的API 236
第8章 大數據安全技術 243
8.1?差分隱私保護方法簡介 243
8.2?差分隱私研究保護方向——數據發布和數據挖掘 246
8.2.1?基於差分隱私保護的數據發布(DPDR) 246
8.2.2?差分隱私保護數據挖掘(DPDM) 247
8.3?常見隱私保護方法 247
8.3.1?差分隱私保護分類方法 247
8.3.2?差分隱私保護聚類方法 248
8.3.3?差分隱私頻繁模式挖掘 249
8.4?套用案例和原型系統 249
參考文獻 251
第9章 眾包——數據來源與質量保證 255
9.1?眾包 255
9.1.1?眾包的概念和模型 255
9.1.2?眾包的優劣分析 257
9.2?眾包的關鍵技術 257
9.2.1?眾包流程 257
9.2.2?任務設計 259
9.2.3?任務分配 260
9.2.4?任務動態最佳化 261
9.2.5?眾包激勵機制 261
9.2.6?眾包質量保障 263
9.3?眾包的成功案例和平台 264
9.3.1?知識百科眾包 264
9.3.2?數據眾包 264
9.3.3?創新眾包 266
9.3.4?軟體眾包 267
9.3.5?眾籌 268
9.3.6?通用智力勞動眾包 269
9.3.7?中國的眾包平台 269
9.4?眾包研究趨勢 269
9.5?總結和展望 271
參考文獻 271
前言
大數據四個V的定義已經深入人心,然而,有關大數據的探索,無論從大數據科學角度還是套用角度,都處於早期階段。對於普通的大數據實踐者而言,利用較為成熟的大數據基礎架構Hadoop、計算引擎Spark,以及諸如Weka3這樣的機器學習軟體,能夠在一定程度上解決數據存儲問題、計算與挖掘問題。 然而,對於大量的大數據探索者與實踐者而言,還會碰到形形色色的問題。例如,如何合理地可視化大數據。
3.3.2?算法模型——MaxCo 102
3.3.3?網路流數據的主動互動學習 103
3.3.4?算法模型 104
3.4?基於隨機路徑的高效網路拓撲相似度算法 106
3.4.1?問題定義 107
3.4.2?基於隨機路徑的網路拓撲相似度算法——Panther 107
3.4.3?實驗結果 110
3.4.4?小結 113
3.5?個體行為與網路分布的統一建模框架——M3D 113
3.5.1?研究方案 114
3.5.2?實驗驗證 115
3.6?總結和展望 117
參考文獻 117
第4章 語義大數據——知識圖譜 119
4.1?大規模知識圖譜技術 119
4.1.1?知識圖譜的表示及其在搜尋中的展現形式 119
4.1.2?知識圖譜的構建 121
4.1.3?知識圖譜在搜尋中的套用 126
4.1.4?總結 127
4.2?行業知識圖譜工具 127
4.2.1?簡介 127
4.2.2?常見的行業知識圖譜 129
4.2.3?行業知識圖譜的構建 131
4.2.4?行業知識圖譜的套用 139
4.2.5?套用案例 141
第5章 圖資料庫——基於圖的大數據管理 147
5.1?圖資料庫簡介 147
5.1.1?大圖數據 148
5.1.2?OLTP與OLAP 149
5.1.3?圖數據模型 151
5.1.4?圖查詢語言 154
5.2?主流圖資料庫和圖計算引擎 160
5.2.1?最流行的圖資料庫——Neo4j 160
5.2.2?分散式圖資料庫——Titan 161
5.2.3?基於RDF三元組庫的圖資料庫——Blazegraph 162
5.2.4?基於Pregel框架的圖計算引擎——Giraph、Hama、
GraphLab、GraphX 163
5.3?圖資料庫關鍵技術 166
5.3.1?圖資料庫的存儲 166
5.3.2?圖資料庫的索引 169
5.3.3?圖資料庫的查詢處理 172
5.4?圖資料庫套用 175
5.4.1?語義全球資訊網 175
5.4.2?社會網路 176
5.4.3?生物信息學 177
第6章 記憶體計算——高速大數據處理的核心技術 179
6.1?記憶體計算技術的一個誤區 179
6.2?TimesTen的設計思路 180
6.3?Apache Spark的設計思路 182
6.4?SAP HANA的設計思路 184
6.5?YunTable 4.0的產品介紹 186
6.5.1?整體架構與核心技術 186
6.5.2?MPP 188
6.5.3?列存2.0 188
6.5.4?動態數據分發 190
6.5.5?記憶體計算 191
6.5.6?性能和路線圖 191
6.6?總結 192
第7章 分散式存儲系統——大數據存儲支撐技術 193
7.1?大數據對存儲系統帶來的挑戰及其引發的變革 193
7.2?谷歌檔案系統(GFS) 194
7.2.1?支持大數據集存取和離線批處理的分散式存儲系統 194
7.2.2?GFS架構分析 195
7.2.3?系統互動 202
7.2.4?主節點的設計 206
7.2.5?容錯和診斷 211
7.2.6?小結 214
7.3?支持海量數據和大規模並發訪問的分散式對象存儲
OpenStack Swift 214
7.3.1?網際網路化帶來新的存儲需求 214
7.3.2?OpenStack Swift的特點 216
7.3.3?Swift的數據模型和架構 219
7.3.4?Swift的API 236
第8章 大數據安全技術 243
8.1?差分隱私保護方法簡介 243
8.2?差分隱私研究保護方向——數據發布和數據挖掘 246
8.2.1?基於差分隱私保護的數據發布(DPDR) 246
8.2.2?差分隱私保護數據挖掘(DPDM) 247
8.3?常見隱私保護方法 247
8.3.1?差分隱私保護分類方法 247
8.3.2?差分隱私保護聚類方法 248
8.3.3?差分隱私頻繁模式挖掘 249
8.4?套用案例和原型系統 249
參考文獻 251
第9章 眾包——數據來源與質量保證 255
9.1?眾包 255
9.1.1?眾包的概念和模型 255
9.1.2?眾包的優劣分析 257
9.2?眾包的關鍵技術 257
9.2.1?眾包流程 257
9.2.2?任務設計 259
9.2.3?任務分配 260
9.2.4?任務動態最佳化 261
9.2.5?眾包激勵機制 261
9.2.6?眾包質量保障 263
9.3?眾包的成功案例和平台 264
9.3.1?知識百科眾包 264
9.3.2?數據眾包 264
9.3.3?創新眾包 266
9.3.4?軟體眾包 267
9.3.5?眾籌 268
9.3.6?通用智力勞動眾包 269
9.3.7?中國的眾包平台 269
9.4?眾包研究趨勢 269
9.5?總結和展望 271
參考文獻 271
前言
大數據四個V的定義已經深入人心,然而,有關大數據的探索,無論從大數據科學角度還是套用角度,都處於早期階段。對於普通的大數據實踐者而言,利用較為成熟的大數據基礎架構Hadoop、計算引擎Spark,以及諸如Weka3這樣的機器學習軟體,能夠在一定程度上解決數據存儲問題、計算與挖掘問題。 然而,對於大量的大數據探索者與實踐者而言,還會碰到形形色色的問題。例如,如何合理地可視化大數據。