本書基於理論結合實踐、基礎結合前沿的編寫原則,系統地講解了網路流量分類技術的相關知識。在內容編排上注重夯實基礎、闡明技術、關注前沿、指導實踐。全書分基礎知識、技術原理和實踐驗證三大模組,共12章。首先介紹了網路協定、網路流量數據集及其預處理技術、典型機器學習算法。在此基礎上,接著介紹了基於連線埠、基於網路協定解析、基於深度包檢測和基於統計學習的網路流量分類方法,闡述了各種方法的基本原理、技術挑戰,跟蹤分析了當前國內外研究進展。最後為增進知識理解和套用,安排了標準網路電話協定和非標Skype網路電話協定檢測分類實踐,在相關章節中亦特別注重提供網路可用資源,方便閱讀者開展實驗或實踐。 本書既可以作為高等學校本科高年級或研究生專業網路技術進階學習的參考書,或用作網路管理、網路安全、網路設計或網路運營技術人員的培訓教材,也可以用作相關方向科研人員的參考資料。
基本介紹
- 書名:網路流量分類方法與實踐
- 作者:汪立東 錢麗萍
- 出版日期:2013年10月1日
- 語種:簡體中文
- ISBN:9787115325068
- 外文名:Network Traffic Classification
- 出版社:人民郵電出版社
- 頁數:204頁
- 開本:16
- 品牌:人民郵電出版社
內容簡介,圖書目錄,
內容簡介
由汪立東和錢玉萍主編的《網路流量分類方法與實踐》特點如下:
1.採用基礎知識、主要方法、技術實踐緊密結合的編排方式,便於研究生與研究人員進階學習。
2.力求理論與實踐相?>結合,使用了大量便於閱讀者理解的圖表,有利於相關知識的理解吸收。
3.適合本科高校學生和技術人員從事網路流量分類、網路協定解析、網路安全等研究工作時參考 。
1.採用基礎知識、主要方法、技術實踐緊密結合的編排方式,便於研究生與研究人員進階學習。
2.力求理論與實踐相?>結合,使用了大量便於閱讀者理解的圖表,有利於相關知識的理解吸收。
3.適合本科高校學生和技術人員從事網路流量分類、網路協定解析、網路安全等研究工作時參考 。
圖書目錄
目 錄
第1章 網路協定 1
1.1 網際網路簡史 1
1.2 OSI參考模型 3
1.3 TCP/IP協定 4
1.3.1 TCP/IP協定模型 4
1.3.2 TCP與UDP 6
1.3.3 Ethernet II幀格式 8
1.3.4 IPv4地址 9
1.3.5 IPv4報文 11
1.3.6 TCP報文 13
1.3.7 UDP報文 14
1.3.8 ICMP報文 15
1.4 IPv6 18
1.4.1 IPv6地址 18
1.4.2 IPv6報文 19
1.4.3 IPv6安全 20
第2章 網路流量數據集 23
2.1 網路數據集格式 23
2.1.1 PCAP檔案格式 24
2.1.2 NetFlow格式 25
2.2 PCAP數據採集 28
2.2.1 數據採集方法 28
2.2.2 常用捕包分析工具 29
2.2.3 Libpcap庫 31
2.2.4 數據集標註 34
2.2.5 NetFlow和IPFIX處理工具 35
2.3 開放數據集 36
2.3.1 CAIDA數據集 36
2.3.2 UNIBS數據集 36
2.3.3 WIDE數據集 37
2.3.4 WITS數據集 38
2.4 其他輔助工具 39
2.4.1 匿名化處理工具 39
2.4.2 IP位址定位 40
第3章 數據預處理與評估 41
3.1 數據清洗 41
3.2 數據變換 42
3.2.1 規範化 42
3.2.2 離散化 42
3.3 數據歸約 43
3.4 維規約與特徵選擇 44
3.5 數據抽樣 45
3.6 數據分布分析 45
3.6.1 簡單度量指標 45
3.6.2 數據分布評估方法 46
3.7 數據集評估指標 47
3.8 特徵的相關性分析 48
3.8.1 散布圖 48
3.8.2 卡方檢驗 49
3.8.3 皮爾遜相關係數 50
第4章 機器學習方法 51
4.1 C4.5決策樹 51
4.2 貝葉斯方法 52
4.2.1 貝葉斯定理 53
4.2.2 樸素貝葉斯 54
4.2.3 隱馬爾可夫模型 54
4.2.4 貝葉斯網路 55
4.3 K-最近鄰算法 56
4.4 支持向量機 58
4.4.1 SVM思想概述 58
4.4.2 線性支持向量機 59
4.4.3 非線性支持向量機與核函式 61
4.4.4 C-SVM、V-SVM與LS-SVM 62
4.4.5 LibSVM 63
4.5 K-均值聚類 63
4.6 分類器評估指標 65
4.6.1 關於分類器模型評估 65
4.6.2 關於分類結果評估 66
第5章 網路流量分類技術概述 69
5.1 基本概念 69
5.2 方法與現狀 70
5.2.1 基於標準連線埠匹配 70
5.2.2 基於DPI 70
5.2.3 基於協定解析 71
5.2.4 基於統計學習 72
5.2.5 研究方法演進 73
5.3 流量分類方法比較評估 74
5.4 挑戰 76
第6章 網際網路流量特性分析 79
6.1 隨機過程 79
6.2 自相似性 81
6.3 長相關性 82
6.4 Hurst指數 83
6.4.1 R/S估計方法 84
6.4.2 Whittle最大似然估計方法 84
6.4.3 小波估計方法 85
6.5 重尾分布 86
6.6 突發性 87
6.7 特性計算及演進趨勢分析 88
第7章 基於連線埠的網路流量分類 89
7.1 典型連線埠分配 89
7.2 CAIDA CoralReef軟體包 91
7.3 布隆過濾器 91
第8章 基於協定解析的網路流量分類 95
8.1 標準開放協定解析 95
8.1.1 TCP協定狀態機 95
8.1.2 POP3協定狀態機 98
8.1.3 HTTP協定狀態機 99
8.2 協定行為分析 102
8.2.1 基於流量的分析方法 102
8.2.2 基於軟體逆向分析方法 113
第9章 基於DPI的網路流量分類 116
9.1 DPI產品概述 116
9.2 多模式匹配算法 117
9.2.1 WM算法 117
9.2.2 AC算法 119
9.3 正則表達式 120
9.4 統計簽名 124
9.5 L7filter 125
第10章 基於統計學習的網路流量分類方法 133
10.1 流統計特徵 133
10.2 流特徵生成工具 137
10.3 時間複雜度分析 138
10.3.1 學習算法的時間複雜度 139
10.3.2 流統計特徵計算的時間複雜度 140
10.4 文獻方法列舉 141
10.5 機器學習軟體包WEKA 153
10.5.1 WEKA數據檔案格式 153
10.5.2 WEKA GUI選單 155
10.5.3 WEKA Explorer 156
10.5.4 WEKA預處理 157
10.5.5 WEKA分類 159
10.5.6 WEKA聚類 165
10.5.7 WEKA關聯分析 165
第11章 SIP和H.323 VoIP流量檢測 166
11.1 概述 166
11.1.1 簡介 166
11.1.2 發展歷程 167
11.1.3 協定體系 167
11.2 VoIP流量檢測 170
11.2.1 檢測分析功能 170
11.2.2 檢測分析原理 171
11.2.3 檢測分析系統 172
第12章 Skype流量識別分類方法 174
12.1 引言 174
12.2 Skype發展現狀 175
12.3 Skype流量識別方法 177
12.4 兩種方法測試結果 180
12.4.1 基於套用行為的Skype識別方法測試結果 180
12.4.2 基於關鍵字的Skype識別方法 182
12.4.3 Skype真的沒有官方伺服器么? 184
12.5 小結 185
附錄:辭彙表 187
參考文獻 194
第1章 網路協定 1
1.1 網際網路簡史 1
1.2 OSI參考模型 3
1.3 TCP/IP協定 4
1.3.1 TCP/IP協定模型 4
1.3.2 TCP與UDP 6
1.3.3 Ethernet II幀格式 8
1.3.4 IPv4地址 9
1.3.5 IPv4報文 11
1.3.6 TCP報文 13
1.3.7 UDP報文 14
1.3.8 ICMP報文 15
1.4 IPv6 18
1.4.1 IPv6地址 18
1.4.2 IPv6報文 19
1.4.3 IPv6安全 20
第2章 網路流量數據集 23
2.1 網路數據集格式 23
2.1.1 PCAP檔案格式 24
2.1.2 NetFlow格式 25
2.2 PCAP數據採集 28
2.2.1 數據採集方法 28
2.2.2 常用捕包分析工具 29
2.2.3 Libpcap庫 31
2.2.4 數據集標註 34
2.2.5 NetFlow和IPFIX處理工具 35
2.3 開放數據集 36
2.3.1 CAIDA數據集 36
2.3.2 UNIBS數據集 36
2.3.3 WIDE數據集 37
2.3.4 WITS數據集 38
2.4 其他輔助工具 39
2.4.1 匿名化處理工具 39
2.4.2 IP位址定位 40
第3章 數據預處理與評估 41
3.1 數據清洗 41
3.2 數據變換 42
3.2.1 規範化 42
3.2.2 離散化 42
3.3 數據歸約 43
3.4 維規約與特徵選擇 44
3.5 數據抽樣 45
3.6 數據分布分析 45
3.6.1 簡單度量指標 45
3.6.2 數據分布評估方法 46
3.7 數據集評估指標 47
3.8 特徵的相關性分析 48
3.8.1 散布圖 48
3.8.2 卡方檢驗 49
3.8.3 皮爾遜相關係數 50
第4章 機器學習方法 51
4.1 C4.5決策樹 51
4.2 貝葉斯方法 52
4.2.1 貝葉斯定理 53
4.2.2 樸素貝葉斯 54
4.2.3 隱馬爾可夫模型 54
4.2.4 貝葉斯網路 55
4.3 K-最近鄰算法 56
4.4 支持向量機 58
4.4.1 SVM思想概述 58
4.4.2 線性支持向量機 59
4.4.3 非線性支持向量機與核函式 61
4.4.4 C-SVM、V-SVM與LS-SVM 62
4.4.5 LibSVM 63
4.5 K-均值聚類 63
4.6 分類器評估指標 65
4.6.1 關於分類器模型評估 65
4.6.2 關於分類結果評估 66
第5章 網路流量分類技術概述 69
5.1 基本概念 69
5.2 方法與現狀 70
5.2.1 基於標準連線埠匹配 70
5.2.2 基於DPI 70
5.2.3 基於協定解析 71
5.2.4 基於統計學習 72
5.2.5 研究方法演進 73
5.3 流量分類方法比較評估 74
5.4 挑戰 76
第6章 網際網路流量特性分析 79
6.1 隨機過程 79
6.2 自相似性 81
6.3 長相關性 82
6.4 Hurst指數 83
6.4.1 R/S估計方法 84
6.4.2 Whittle最大似然估計方法 84
6.4.3 小波估計方法 85
6.5 重尾分布 86
6.6 突發性 87
6.7 特性計算及演進趨勢分析 88
第7章 基於連線埠的網路流量分類 89
7.1 典型連線埠分配 89
7.2 CAIDA CoralReef軟體包 91
7.3 布隆過濾器 91
第8章 基於協定解析的網路流量分類 95
8.1 標準開放協定解析 95
8.1.1 TCP協定狀態機 95
8.1.2 POP3協定狀態機 98
8.1.3 HTTP協定狀態機 99
8.2 協定行為分析 102
8.2.1 基於流量的分析方法 102
8.2.2 基於軟體逆向分析方法 113
第9章 基於DPI的網路流量分類 116
9.1 DPI產品概述 116
9.2 多模式匹配算法 117
9.2.1 WM算法 117
9.2.2 AC算法 119
9.3 正則表達式 120
9.4 統計簽名 124
9.5 L7filter 125
第10章 基於統計學習的網路流量分類方法 133
10.1 流統計特徵 133
10.2 流特徵生成工具 137
10.3 時間複雜度分析 138
10.3.1 學習算法的時間複雜度 139
10.3.2 流統計特徵計算的時間複雜度 140
10.4 文獻方法列舉 141
10.5 機器學習軟體包WEKA 153
10.5.1 WEKA數據檔案格式 153
10.5.2 WEKA GUI選單 155
10.5.3 WEKA Explorer 156
10.5.4 WEKA預處理 157
10.5.5 WEKA分類 159
10.5.6 WEKA聚類 165
10.5.7 WEKA關聯分析 165
第11章 SIP和H.323 VoIP流量檢測 166
11.1 概述 166
11.1.1 簡介 166
11.1.2 發展歷程 167
11.1.3 協定體系 167
11.2 VoIP流量檢測 170
11.2.1 檢測分析功能 170
11.2.2 檢測分析原理 171
11.2.3 檢測分析系統 172
第12章 Skype流量識別分類方法 174
12.1 引言 174
12.2 Skype發展現狀 175
12.3 Skype流量識別方法 177
12.4 兩種方法測試結果 180
12.4.1 基於套用行為的Skype識別方法測試結果 180
12.4.2 基於關鍵字的Skype識別方法 182
12.4.3 Skype真的沒有官方伺服器么? 184
12.5 小結 185
附錄:辭彙表 187
參考文獻 194