大數據平台異常檢測分析系統的若干關鍵技術研究

大數據平台異常檢測分析系統的若干關鍵技術研究

《大數據平台異常檢測分析系統的若干關鍵技術研究》2020年6月電子工業出版社出版的圖書,作者是肖如良

基本介紹

  • 書名:大數據平台異常檢測分析系統的若干關鍵技術研究
  • 作者:肖如良
  • 出版社電子工業出版社
  • 出版時間:2020年6月
  • 頁數:204 頁
  • 定價:89 元
  • 開本:16 開
  • ISBN:9787121352225
  • 千字數:326
  • 版次:01-01
內容簡介,圖書目錄,前言,

內容簡介

大數據技術生態體系中的各類技術構件本身沒有可自省的安全機制,構件間使用的RPC協定也沒有安全機制,大數據平台的安全性面臨著巨大挑戰,如何高效、快速地檢測大數據平台中的套用異常對提高大數據平台的安全性具有重要意義。本書在介紹相關研究工作及相關基礎內容之後,主要針對大數據平台的套用層日誌數據,研究了平台異常的檢測與分析問題,構建了大數據平台異常的離線檢測分析的方法體系及實時檢測的機制。研究了基於數據流二重概念漂移檢測的增量學習、分散式日誌的最大頻繁序列模式挖掘算法、基於最大頻繁模式的動態規則庫構建算法、基於Web會話流的分散式實時異常定位算法、基於最大信息係數的線上異常檢測算法、基於聚類分析的離線異常檢測算法、基於相鄰請求的動態時間閾值會話識別算法、基於會話特徵相似性模糊聚類的SFAD異常檢測算法、基於貝葉斯粒子群的異常檢測算法、平台異常時的推測式任務調度策略、基於實時負載的推測式任務調度算法。分析了大數據平台異常檢測分析(RADA)系統在實現時所採用的大數據技術與組件技術選型,針對RADA系統進行了深入的結構化分析,介紹了基於融合架構的RADA系統概要設計,研究了RADA系統的詳細設計與實現方法,完整地總結了大數據平台異常的實時檢測技術與分析RADA系統的關鍵技術。本書可為產業界與學術界相關人員提供套用研發的幫助,可供計算機專業、軟體工程專業的相關工程技術人員、研究人員學習、參考。

圖書目錄

第1章 緒論 1
1.1 大數據平台異常檢測分析研究的背景與意義 1
1.2 大數據平台異常檢測分析技術的國內外相關研究進展 3
1.2.1 大數據平台異常檢測分析技術的國內外研究現狀 3
1.2.2 大數據平台異常檢測分析系統的國內外研究現狀 5
1.3 本書的主要貢獻 7
1.4 本書的組織結構 8
1.5 本章小結 11
第2章 大數據平台異常檢測分析的相關基礎 12
2.1 引言 12
2.2 日誌 12
2.3 日誌預處理 13
2.4 異常檢測 14
2.4.1 異常檢測的定義 14
2.4.2 幾類常見的異常檢測算法 14
2.5 入侵檢測Snort系統 16
2.6 Web用戶行為模式挖掘 17
2.7 本章小結 19
第3章 基於數據流二重概念漂移檢測的增量學習 20
3.1 引言 20
3.2 二重概念漂移檢測機制 20
3.3 基於數據屬性的二重概念漂移檢測機制 21
3.4 基於分類性能的二重概念漂移檢測機制 22
3.5 基於增量SVM與二重檢測的概念漂移數據流分類模型TDD-ISVM 23
3.6 TDD-ISVM算法的時間複雜度分析 25
3.7 實驗設計與結果分析 26
3.7.1 實驗數據集 26
3.7.2 實驗結果與分析 26
3.8 本章小結 29
第4章 分散式日誌的最大頻繁序列模式挖掘算法 31
4.1 引言 31
4.2 序列模式挖掘相關工作 32
4.3 動機與背景 33
4.3.1 使用分散式計算框架的動機與背景 33
4.3.2 使用PrefixSpan算法挖掘序列模式的動機與背景 34
4.3.3 改進PrefixSpan算法提取局部最大頻繁序列的動機與背景 34
4.3.4 改進PrefixSpan算法提取全局最大頻繁序列的動機與背景 35
4.4 分散式日誌最大頻繁序列模式挖掘算法描述 35
4.4.1 基於Spark的分散式計算框架 35
4.4.2 算法總體描述 36
4.4.3 算法第一階段:各節點提取局部最大頻繁序列 37
4.4.4 算法第二階段:各節點集成,提取全局最大頻繁序列 37
4.5 實驗設計與結果分析 38
4.5.1 實驗數據集 38
4.5.2 實驗結果與分析 38
4.6 本章小結 41
第5章 基於最大頻繁模式的動態規則庫構建算法 42
5.1 引言 42
5.2 動態Web用戶訪問序列資料庫DWASD的構建 43
5.3 基於DWASD的分散式PrefixSpan算法 44
5.3.1 PrefixSpan算法改進描述 44
5.3.2 算法的時間複雜度分析 46
5.4 實驗設計與結果分析 46
5.4.1 實驗數據集 46
5.4.2 實驗結果與分析 46
5.5 本章小結 48
第6章 基於Web會話流的分散式實時異常定位算法 49
6.1 引言 49
6.2 基於Web會話流的實時異常定位框架 50
6.3 基於混合生物基因序列比對的異常定位AL_HBGSA算法 50
6.3.1 基本概念 51
6.3.2 AL_HBGSA序列比對算法 51
6.3.3 AL_HBGSA算法的時間複雜度分析 54
6.4 實驗設計與結果分析 54
6.4.1 實驗數據集 54
6.4.2 實驗結果與分析 55
6.5 本章小結 59
第7章 基於最大信息係數的線上異常檢測算法 60
7.1 引言 60
7.2 相關基礎 60
7.2.1 用戶活躍度 60
7.2.2 最大信息係數 61
7.3 基於最大信息係數的線上異常檢測算法介紹 62
7.4 算法的時間複雜度分析 64
7.5 實驗設計與結果分析 64
7.5.1 實驗數據集 64
7.5.2 實驗結果與分析 65
7.6 本章小結 68
第8章 基於聚類分析的離線異常檢測算法 69
8.1 引言 69
8.2 基本聚類算法 69
8.2.1 K-means聚類算法 69
8.2.2 Canopy聚類算法 70
8.2.3 CMBK聚類算法 71
8.3 基於改進聚類分析的離線異常檢測算法 72
8.3.1 異常指數 72
8.3.2 CMBK4AD離線異常檢測算法 73
8.4 算法的時間複雜度分析 73
8.5 實驗設計與結果分析 73
8.5.1 實驗數據集 74
8.5.2 實驗結果與分析 74
8.6 本章小結 76
第9章 基於相鄰請求的動態時間閾值會話識別算法 77
9.1 引言 77
9.2 相關基礎 78
9.2.1 頁面訪問時間閾值 78
9.2.2 用戶訪問時間閾值 78
9.2.3 設定頁面時間閾值 79
9.3 DAITS算法 79
9.4 實驗設計與結果分析 81
9.4.1 實驗數據集 81
9.4.2 實驗結果與分析 81
9.5 本章小結 82
第10章 基於會話特徵相似性模糊聚類的SFAD異常檢測算法 83
10.1 引言 83
10.2 基本工作 85
10.2.1 會話特徵中網路權重的計算 85
10.2.2 會話特徵相似性的計算 85
10.2.3 會話數據集的模糊聚類方法 86
10.3 會話特徵相似性模糊聚類的異常檢測算法 87
10.3.1 會話的數據結構及生成 87
10.3.2 建立用戶相似性矩陣 88
10.3.3 檢測和定位異常用戶 88
10.4 實驗設計與結果分析 89
10.4.1 數據集描述 89
10.4.2 實驗結果與分析 90
10.5 本章小結 93
第11章 基於貝葉斯粒子群的異常檢測算法 94
11.1 引言 94
11.2 基於樸素貝葉斯分類的異常檢測模型ADM-NBC 95
11.2.1 用戶會話特徵提取 95
11.2.2 ADM-NBC的構建 96
11.3 基於ADM-NBC的WNB-PSO算法 97
11.3.1 加權樸素貝葉斯分類算法 97
11.3.2 粒子群最佳化算法 97
11.3.3 改進的粒子群最佳化算法 99
11.3.4 WNB-PSO算法描述 99
11.4 實驗設計與結果分析 101
11.4.1 實驗數據集 101
11.4.2 實驗結果與分析 101
11.5 本章小結 104
第12章 平台異常時的推測式任務調度策略 105
12.1 引言 105
12.2 多用戶作業調度器 105
12.2.1 公平調度器 105
12.2.2 計算能力調度器 107
12.3 推測執行調度算法 109
12.3.1 Hadoop-Original推測執行調度算法 110
12.3.2 LATE推測執行調度算法 110
12.3.3 基於備份任務完成時間的推測執行調度策略 111
12.3.4 Mantri系統推測執行調度策略 112
12.4 本章小結 112
第13章 基於實時負載的推測式任務調度算法 113
13.1 引言 113
13.1.1 Hadoop-Original推測式任務調度算法的不足 113
13.1.2 LATE推測式任務調度算法的不足 113
13.2 推測式任務調度算法改進 114
13.2.1 基於混合進度比的任務進度估算方法 114
13.2.2 慢任務判定方法 115
13.2.3 慢節點判定方法 116
13.3 節點負載分級模型 117
13.4 基於實時負載的推測式任務調度算法流程 119
13.5 實驗設計與結果分析 120
13.5.1 實驗平台及部署 120
13.5.2 測試作業選擇及評估方式 121
13.5.3 實驗方案 122
13.5.4 實驗結果與分析 122
13.6 本章小結 126
第14章 大數據Lambda架構與微服務架構技術選型 127
14.1 引言 127
14.2 大數據技術Lambda架構 127
14.2.1 Hadoop技術基礎 127
14.2.2 Spark技術生態體系 129
14.2.3 基於Flume+Kafka的大數據收集組件 130
14.2.4 基於Spark的大數據處理組件 131
14.2.5 基於HBase的大數據存儲與管理組件 131
14.2.6 基於MLlib的大數據分析及挖掘組件 131
14.2.7 基於Spark Streaming的大數據流處理組件 132
14.3 微服務架構的有關組件技術選型 132
14.3.1 微服務架構 132
14.3.2 Spring Boot 133
14.3.3 MyBatis 133
14.3.4 Spring Cloud 134
14.4 本章小結 135
第15章 大數據平台異常檢測分析系統的結構化分析 136
15.1 引言 136
15.2 問題與場景描述 136
15.3 初步需求分析 137
15.4 系統數據流 137
15.4.1 頂層數據流 137
15.4.2 第一層數據流 138
15.4.3 第二層數據流 138
15.4.4 第三層數據流 139
15.5 功能需求 139
15.6 非功能需求 140
15.7 本章小結 140
第16章 基於融合架構的RADA系統概要設計 141
16.1 引言 141
16.1.1 RADA系統邏輯架構的初步構建 141
16.1.2 RADA系統物理架構的初步構建 141
16.2 RADA系統邏輯架構設計 142
16.2.1 基於微服務架構的RADA系統邏輯架構設計 143
16.2.2 基於Lambda架構的RADA系統邏輯架構設計 143
16.2.3 基於微服務架構和Lambda架構的RADA系統技術架構設計 143
16.3 運行部署環境 144
16.3.1 系統運行網路環境 144
16.3.2 系統運行硬體環境 145
16.3.3 系統運行軟體環境 145
16.4 日誌預處理子系統概要設計 145
16.4.1 上傳離線日誌 146
16.4.2 處理離線日誌 147
16.4.3 獲取實時日誌 148
16.4.4 處理實時日誌 148
16.4.5 日誌規範化 149
16.4.6 處理規範化日誌 150
16.4.7 添加日誌模板 151
16.4.8 處理日誌模板 152
16.5 監控告警子系統概要設計 153
16.5.1 設定告警方式 154
16.5.2 離線異常檢測 154
16.5.3 實時異常檢測 156
16.5.4 查詢異常信息 156
16.5.5 更新規則庫 156
16.6 資料庫設計 158
16.6.1 資料庫實體關係分析 158
16.6.2 數據字典 159
16.7 本章小結 162
第17章 RADA系統的詳細設計與實現方法 163
17.1 引言 163
17.2 RADA系統架構的實現機制 163
17.2.1 RADA系統中微服務架構的實現 163
17.2.2 RADA系統中Lambda架構的實現 164
17.3 日誌預處理的詳細設計 164
17.3.1 控制層設計 164
17.3.2 服務層設計 166
17.3.3 持久化層設計 168
17.4 監控告警模組的詳細設計 169
17.4.1 控制層設計 169
17.4.2 服務層設計 170
17.4.3 持久層設計 171
17.5 核心用例的實現 172
17.5.1 上傳離線日誌 172
17.5.2 離線日誌規範化處理 173
17.5.3 離線異常檢測 174
17.5.4 獲取實時日誌 177
17.5.5 實時日誌規範化處理 178
17.5.6 實時異常檢測 178
17.6 本章小結 179
第18章 總結與展望 180
18.1 總結 180
18.2 展望 181
附錄A 182
參考文獻 185

前言

移動網際網路、社交網、雲計算、物聯網的飛速發展促使大數據的各種套用迅速增多,搭建在大數據平台上的各類套用服務已成為含有大量用戶隱私信息和體現運營商利益的共同體,套用層的安全問題變得越來越嚴峻。然而國內外相關的技術往往針對分散式集群系統的下層,很少針對分散式集群系統的上層,對於系統套用中的異常檢測分析而言,實時檢測與定位異常的能力較弱。分散式異常檢測技術是當前學術界與產業界的廣泛研究熱點,但實用的成果還不多。在此背景下,針對大數據平台準確地檢測異常並發現其根源,直接關係到大數據平台運營商及平台用戶的廣泛利益,因此,研究大數據平台在套用層的各類異常檢測分析方法具有重要意義。
本書以大數據平台上層套用的異常檢測關鍵技術為主要研究內容,一方面,將離線分析方法和實時檢測方法相結合,研究大數據平台異常檢測分析的關鍵技術;另一方面,對異常檢測系統研發的關鍵模組進行詳細描述。
全書共18章,第1章介紹對大數據平台進行異常檢測分析的背景與意義、相關研究進展、本書的主要貢獻與組織結構等;第2章介紹大數據平台異常檢測分析的相關基礎;第3章介紹基於數據流二重概念漂移檢測的增量學習;第4章介紹分散式日誌的最大頻繁序列模式挖掘算法;第5章介紹基於最大頻繁模式的動態規則庫構建算法;第6章介紹基於Web會話流的分散式實時異常定位算法;第7章介紹基於最大信息係數的線上異常檢測算法;第8章介紹基於聚類分析的離線異常檢測算法;第9章介紹基於相鄰請求的動態時間閾值會話識別算法;第10章介紹基於會話特徵相似性模糊聚類的SFAD異常檢測算法;第11章介紹基於貝葉斯粒子群的異常檢測算法;第12章介紹平台異常時的推測式任務調度策略;第13章介紹基於實時負載的推測式任務調度算法;第14章介紹大數據Lambda架構與微服務架構技術選型;第15章介紹大數據平台異常檢測分析系統的結構化分析;第16章介紹基於融合架構的RADA系統概要設計;第17章介紹RADA系統的詳細設計與實現方法;第18章是總結與展望。

相關詞條

熱門詞條

聯絡我們