書籍信息
書名 複雜系統中大數據分析與實踐
書號 978-7-118-11565-9
作者 (埃及)阿布·埃拉·哈桑尼等
出版時間 2018年8月
譯者 陳桂明等
版次 1版1次
開本 16
裝幀 精裝
出版基金 裝備科技譯著出版基金
頁數 451
字數 545
中圖分類 TP274
叢書名 大數據科技譯叢
定價 138.00
內容簡介
本書面向不同領域的大數據分析研究和從業人員介紹理論前沿同時將前沿理論套用於解決不同領域的實際問題?最後進行歸納總結提煉出複雜系統中大數據的套用要點本書包括三個部分:第一部分( 第1 章~第5 章) 介紹複雜系統中的大數據基礎理論知識?第二部分(第6 章~第13 章)介紹不同套用背景下大數據的成功套用案例第三部分(第14 章~第17 章) 提煉總結複雜系統中大數據的套用要點. 本書可以作為各大學計算機科學與工程、管理科學與工程、系統工程等專業本科生和研究生的教材?也可以作為相關研究機構和企業從事人工智慧、數據挖掘以及電子商務等專業研究和工作的相關人員的參考書籍.
圖書目錄
第1章大規模數據云計算設施:當前的緊迫任務001
1.1引言002
1.2相關工作003
1.3雲計算概述004
1.3.1雲計算的基本特徵004
1.3.2服務模型005
1.3.3部署模型006
1.3.4雲存儲設施008
1.3.5雲存儲設施需求009
1.4大數據概述010
1.4.1大數據的特徵011
1.4.2大數據對於基礎設施的影響012
1.4.3大數據對於未來市場的影響014
1.5雲計算與大數據:不可抗拒的結合015
1.5.1最佳化當前基礎設施以處理大數據016
1.6使用雲服務處理大數據的挑戰與困難017
1.7討論019
1.8結論020
參考文獻020
第2章大數據運動:數據處理的挑戰024
2.1引言025
2.2大數據中的數據處理027
2.2.1數據結構027
2.2.2NoSQL資料庫028
2.2.3大數據0302.3數據處理服務中的並行性033
2.3.1性能評估033
2.3.2可拓展性與Amdahl’s定律033
2.3.3任務與數據並行性034
2.3.4編程環境035
2.3.5程式語言與代碼最佳化036
2.4天文學中的大數據崩塌037
2.4.1虛擬觀測039
2.4.2天文信息學042
2.5大數據與演化算法:視角與可能性046
2.6總結053
參考文獻054
第3章基於高維數據的魯棒性能模型擔保059
3.1引言060
3.1.1問題定義061
3.2相關工作063
3.2.1挑戰與貢獻065
3.3約束和對比模型性能的原則068
3.3.1魯棒性統計評估068
3.3.2數據靈活性073
3.3.3數據可拓展性075
3.3.4多設定條件下性能擔保水平評估075
3.3.5多準則集成076
3.4結果與討論077
3.5結論及下一步工作083
參考文獻084
第4章流聚類算法導讀088
4.1引言089
4.2流聚類算法的體系結構090
4.3數據流聚類存在的問題091
4.3.1概要表示091
4.3.2到達的數據點的高效增量處理092
4.3.3處理混合屬性092
4.3.4獲取近期性和數據演化092
4.3.5硬聚類和模糊聚類094
4.3.6異常值檢測094
4.4流聚類方法094
4.4.1基於距離和基於密度的方法095
4.4.2基於格線的方法099
4.4.3基於統計法的方法104
4.4.4討論107
4.5流聚類算法中概要的功能110
4.5.1概要對參數的敏感性110
4.5.2概要初始化111
4.5.3獲取數據中自然結構的能力111
4.5.4存儲器的使用112
4.5.5單點處理時間112
4.5.6對數據排序的敏感性112
4.5.7管理混合屬性113
4.5.8處理異常值113
4.5.9獲取數據演化113
4.5.10總結114
4.6流聚類的其他問題和挑戰 114
4.6.1弱實驗評估115
4.6.2可用性116
4.6.3改變建模117
4.7結論117
參考文獻118
第5章大數據中的語言重複交叉檢查123
5.1引言124
5.2重複記錄檢測概述127
5.2.1拼音名字匹配算法129
5.2.2重複記錄檢測技術的質量129
5.3相關工作130
5.4方法學132
5.4.1上述重複記錄檢測框架133
5.4.2預處理:數據清理和標準化134
5.4.3語言外掛程式135
5.4.4創建基於語音的詞典136
5.4.5索引/分塊136
5.4.6記錄配對比較137
5.4.7分類函式137
5.4.8跨語言重複記錄檢測的質量評估137
5.4.9未來展望:大數據趨勢138
5.5結果和討論139
5.5.1實驗1:比較CLDRD和Febrl140
5.5.2實驗2:比較Febrl和CLDRD中的分塊技術141
5.6總結141
參考文獻142
第6章基於粗糙集和改進和聲搜尋算法混合的新型蛋白序列分類特徵選擇算法145
6.1引言146
6.2相關工作148
6.3提議的框架150
6.3.1蛋白質一級序列150
6.3.2偽胺基酸生成器152
6.3.3胺基酸成分152
6.3.4K-元組子序列152
6.3.5離散化153
6.3.6蛋白質分類153
6.4粗糙集理論基礎154
6.5特徵提取155
6.6特徵選擇156
6.6.1基於粗糙集屬性的約簡算法156
6.6.2粗糙集粒子群最最佳化算法157
6.6.3和聲搜尋算法158
6.6.4基於粗糙集的改進的和聲搜尋算法(RSIHS)161
6.7實驗分析163
6.7.1數據源163
6.7.2結果及討論163
6.8結論及未來工作167
參考文獻168
第7章Twitter中新聞演化的自動發現172
7.1引言173
7.2相關工作175
7.2.1大數據:挑戰和機遇175
7.2.2社交媒體和“大數據”176
7.3Twitter網路的背景178
7.3.1作為決策支持工具的Twitter180
7.4關聯規則挖掘概述180
7.4.1推文中的關聯規則181
7.4.2規則相似性和差異性181
7.4.3度量相似性182
7.5基於事務的規則改變挖掘的演化182
7.5.1基於事務的規則改變挖掘規則的定義183
7.6使用基於事務的規則改變挖掘規則類型識別(TRCM-RTI),分析推文趨勢184
7.6.1規則趨勢分析184
7.6.2推文中正在演化規則的時間幀視窗185
7.6.3新聞和主題標籤,哪個先出現? ——“TwO -NwO”狀態186
7.7實證評估187
7.7.1實驗設定188
7.7.2實驗性的案例研究189
7.7.3案例研究192
7.8結論193
7.8.1未來工作194
參考文獻194
第8章基於混合容差粗糙集的社交標籤系統智慧型方法研究197
8.1引言198
8.2相關工作200
8.3社交標籤數據聚類的各階段203
8.3.1數據格式化203
8.3.2預處理204
8.3.3聚類205
8.4實驗結果211
8.4.1無監督快速精簡書籤選擇211
8.4.2聚類算法的性能分析212
8.4.3比較分析217
8.5結果的解釋221
8.6結論222
參考文獻222
第9章為比較膽囊切除術後病患的共病指數開發麻醉和手術護理醫療資料庫225
9.1引言226
9.1.1臨床資料庫226
9.1.2圍手術期療效比較研究227
9.1.3大型資料庫和圍手術期研究229
9.1.4基於風險分層的共病重要性230
9.2本章目標和結構232
9.3方法232
9.3.1參與者232
9.3.2變數232
9.3.3數據分析233
9.4結果233
9.4.1病患特徵233
9.4.2粗死亡率233
9.5討論236
9.5.1研究的局限性和優勢236
9.5.2其他套用236
9.5.3大資料庫的優勢240
9.5.4大型資料庫的有效性241
9.5.5注意事項和清單244
9.6總結244
參考文獻245
第10章採用初級保健服務、醫院和職業資料庫的病假和記錄連線研究250
10.1引言251
10.1.1電子衛生資料庫251
10.1.2記錄連線254
10.1.3初級衛生保健患者的Charlson共病指數和病假258
10.2目的和章節結構260
10.3方法260
10.3.1研究人群260
10.3.2數據收集260
10.3.3統計分析261
10.4結果262
10.5討論267
10.5.1病假和CCIPC267
10.5.2下一步:通過大數據提高信息的可用性269
10.6結論270
參考文獻271
第11章基於雙射軟集合的ECG心律失常的分類276
11.1引言277
11.2相關工作278
11.3材料和方法28111.3.1信號採集282
11.3.2信號預處理和特徵提取282
11.3.3改良雙射軟集合的提出和套用284
11.4Pan-Tompkins 算法286
11.4.1帶通濾波器286
11.4.2求導287
11.4.3非線性轉換287
11.4.4移動視窗整合287
11.4.5框標287
11.5基本概念——軟集合和雙射軟集合288
11.5.1軟集合理論288
11.5.2雙射軟集合理論288
11.6ECG信號相對性分類算法289
11.6.1反向傳播神經網路289
11.6.2樸素貝葉斯分類法291
11.6.3決策樹——J48291
11.6.4決策表算法292
11.7實驗分析和結果293
11.8結論297
參考文獻298
第12章地理空間語義:從大數據到數據生態系統301
12.1引言301
12.2相關工作303
12.3地理空間語義304
12.3.1語義關係305
12.3.2語義屬性和剖析307
12.4套用308
12.4.1地理數據生態系統308
12.4.2犯罪地圖:分析員和公民310
12.4.3地理空間的推理314
12.5結論318
參考文獻318
第13章常見乳腺癌中DNA甲基化的大數據分析和可視化322
13.1引言323
13.2背景324
13.2.1DNA甲基化324
13.2.2乳腺癌亞型的生物學特徵325
13.2.3統計學背景327
13.3實驗方法328
13.3.1非特異性過濾329
13.3.2特異性過濾330
13.3.3形式概念分析(FCA)330
13.4實驗結果與討論331
13.5套用FCA識別乳腺癌亞型332
13.5.1形式背景332
13.5.2FCA335
13.6結論與展望336
參考文獻337
第14章大數據的數據質量、分析學和隱私339
14.1引言340
14.2數據/信息質量和數據集成341
14.2.1定義341
14.2.2市場概述341
14.2.3數據/信息質量管理343
14.2.4大數據質量344
14.3數據隱私和安全344
14.3.1醫療保健大數據345
14.3.2醫療保健領域的數據隱私345
14.3.3數據安全概述346
14.3.4管理和政策347
14.3.5大量安全數據348
14.3.6安全產品348
14.4大數據分析學352
14.4.1概述352
14.4.2技術352
14.4.3商業決策353
14.5討論354
14.5.1大數據人才的市場需求355
14.5.2大數據解決方案的實施355
14.5.3大數據出版物分析355
14.5.4大數據安全358
14.6結論359
參考文獻360
第15章醫學領域海量異構數據的檢索、分析與可視化對比研究362
15.1引言363
15.2相關工作364
15.2.1數據可視化364
15.2.2電子病歷的可視化系統366
15.3醫療多項目系統370
15.3.1M2ICOP系統的結構371
15.4實驗378
15.5M2ICOP系統功能和可用性的評估379
15.5.1數據採集和評估過程380
15.5.2評估結果380
15.6結論381
參考文獻381
第16章基於改進軟粗糙集的心律失常心電圖信號分類方法385
16.1引言386
16.1.1心電圖波形描述387
16.1.2心電圖的解釋387
16.2相關工作388
16.3研究方法389
16.3.1信號採集390
16.3.2預處理390
16.3.3特徵提取392
16.4背景393
16.4.1粗糙集393
16.4.2軟集合理論394
16.4.3軟粗糙集395
16.5分類396
16.5.1樸素貝葉斯396
16.5.2MLP396
16.5.3BPN397
16.5.4J48397
16.5.5JRip397
16.5.6決策表398
16.5.7MSR399
16.6實驗分析及結果400
16.6.1評價指標401
16.6.2性能評估402
16.6.3討論404
16.7結論405
參考文獻405
第17章一種新型大型分散式數據的描述與操作架構
408
17.1引言409
17.2分散式資料庫和大數據410
17.2.1集中式架構內大數據的缺點410
17.2.2分散式資料庫的性能問題411
17.2.3關於透明度問題411
17.3現有DDBMS概述412
17.3.1DDBMS規範412
17.3.2在Oracle下的DDB實現示例412
17.4目的416
17.5描述和操作大型分散式數據的新架構418
17.5.1本方法的目標418
17.5.2建議的分層架構418
17.6智慧型大型分散式數據420
17.6.1研究結果420
17.6.2結果評論429
17.7結論430
參考文獻430"