《面向大數據的高效能垃圾文本分類》共分7章,第1章分析大數據時代垃圾信息態勢,第2章概述垃圾信息過濾方法。第3章研究電子郵件文檔和手機簡訊文檔的文本特性,第4章研究多域學習總體框架,第5章提出基於Token頻率索引的文本分類算法,第6章研究有監督反饋代價問題,第7章設計面向大數據的高效能垃圾文本過濾系統。
基本介紹
- 書名:面向大數據的高效能垃圾文本分類
- 出版社:國防工業出版社
- 頁數:160頁
- 開本:32
- 品牌:國防工業出版社
- 作者:劉伍穎
- 出版日期:2014年10月1日
- 語種:簡體中文
- ISBN:9787118097597
內容簡介,作者簡介,圖書目錄,
內容簡介
《面向大數據的高效能垃圾文本分類》全面介紹了大數據時代垃圾信息的爆發態勢和文本特性,並根據信息文檔的多域結構特性和文本Token頻率分布的冪律特性,提出了多域學習的思想,研究了一整套面向大數據的高效能垃圾文本分類方法。《面向大數據的高效能垃圾文本分類》可以作為普通高等院校、科研機構大數據計算技術相關專業高年級本科生或研究生的實驗教材,也可供網路信息技術公司高級研究人員參考。
作者簡介
劉伍穎(1980.01-),男,江西九江人,博士,講師。畢業於國防科學技術大學計算機學院,分別於2002年、2005年、2011年獲得計算機科學與技術專業學士、碩士、博士學位。已在SIGIR、AIRS、Knowledge and Information Systems等國內外學術會議和期刊上發表論文30餘篇,其中被scI檢索4篇,被cPcI—s檢索4篇,被EI核心檢索12篇。獲得智慧型摘要軟體等計算機軟體著作權3項。主持科研項目2項。主要研究領域為自然語言處理(信息檢索、信息過濾、機器翻譯、自動文摘)和人工智慧(機器學習、數據挖掘、文本分類)。
圖書目錄
第1章大數據與垃圾信息1
1.1大數據時代的垃圾信息1
1.1.1大數據和垃圾信息爆發1
1.1.2垃圾信息過濾研究項目3
1.1.3垃圾信息過濾研究意義10
1.2垃圾信息範疇12
1.2.1垃圾電子郵件12
1.2.2垃圾手機簡訊13
1.2.3廣義垃圾信息14
1.2.4文本垃圾信息14
1.3文本垃圾信息態勢15
1.3.1國際垃圾郵件態勢15
1.3.2我國垃圾郵件態勢17
1.3.3我國垃圾手機簡訊態勢19
1.4研究動機與內容21
1.4.1科學問題與挑戰21
1.4.2研究內容與結構22
1.4.3研究成果25
本章小結28
第2章垃圾信息過濾方法概述29
2.1基於協定的垃圾信息過濾29
2.1.1基於SMTP的方法30
2.1.2基於IP的方法31
2.2基於內容的垃圾信息過濾33
2.2.1基於規則的方法34
2.2.2基於統計的方法35
2.2.3神經網路方法38
2.2.4集成學習方法39
2.3垃圾信息過濾性能評價方法41
2.3.1當前性能評價方法41
2.3.2ROC曲線評價方法42
2.3.3整體性能評價方法43
本章小結44
第3章信息文檔的文本統計特性45
3.1信息文檔的正文特性45
3.1.1電子郵件和手機簡訊語料45
3.1.2正文文本長度特性46
3.1.3正文和Token重複特性49
3.2信息文檔的結構特性50
3.2.1信息文檔格式50
3.2.2域間文本特徵52
3.3Token頻率分布的冪律特性54
3.3.1冪律54
3.3.2郵件文檔和郵件域文檔55
3.3.3簡訊文檔和簡訊域文檔60
本章小結64
第4章面向垃圾信息過濾的多域學習文本分類66
4.1問題描述與框架66
4.1.1形式化描述66
4.1.2多域學習框架70
4.2分割策略72
4.2.1自然域文檔分割策略73
1.1大數據時代的垃圾信息1
1.1.1大數據和垃圾信息爆發1
1.1.2垃圾信息過濾研究項目3
1.1.3垃圾信息過濾研究意義10
1.2垃圾信息範疇12
1.2.1垃圾電子郵件12
1.2.2垃圾手機簡訊13
1.2.3廣義垃圾信息14
1.2.4文本垃圾信息14
1.3文本垃圾信息態勢15
1.3.1國際垃圾郵件態勢15
1.3.2我國垃圾郵件態勢17
1.3.3我國垃圾手機簡訊態勢19
1.4研究動機與內容21
1.4.1科學問題與挑戰21
1.4.2研究內容與結構22
1.4.3研究成果25
本章小結28
第2章垃圾信息過濾方法概述29
2.1基於協定的垃圾信息過濾29
2.1.1基於SMTP的方法30
2.1.2基於IP的方法31
2.2基於內容的垃圾信息過濾33
2.2.1基於規則的方法34
2.2.2基於統計的方法35
2.2.3神經網路方法38
2.2.4集成學習方法39
2.3垃圾信息過濾性能評價方法41
2.3.1當前性能評價方法41
2.3.2ROC曲線評價方法42
2.3.3整體性能評價方法43
本章小結44
第3章信息文檔的文本統計特性45
3.1信息文檔的正文特性45
3.1.1電子郵件和手機簡訊語料45
3.1.2正文文本長度特性46
3.1.3正文和Token重複特性49
3.2信息文檔的結構特性50
3.2.1信息文檔格式50
3.2.2域間文本特徵52
3.3Token頻率分布的冪律特性54
3.3.1冪律54
3.3.2郵件文檔和郵件域文檔55
3.3.3簡訊文檔和簡訊域文檔60
本章小結64
第4章面向垃圾信息過濾的多域學習文本分類66
4.1問題描述與框架66
4.1.1形式化描述66
4.1.2多域學習框架70
4.2分割策略72
4.2.1自然域文檔分割策略73
4.2.2特定屬性域文檔分割策略74
4.3組合策略76
4.3.1均權組合策略76
4.3.2支持向量模型權組合策略77
4.3.3域分類器歷史性能權組合策略80
4.3.4域文檔信息量權組合策略81
4.3.5複合權組合策略81
4.4實驗結果82
4.4.1TREC07P上的bogo實驗82
4.4.2TREC07P上的tftS3F實驗85
4.4.3CSMS-P上的bogo實驗87
4.4.4CSMS-P上的tftS3F實驗89
本章小結91
第5章面向垃圾信息過濾的時空高效文本分類92
5.1基於Token頻率索引的文本分類算法92
5.1.1統計原理92
5.1.2Token頻率索引94
5.1.3算法描述95
5.2算法複雜度分析98
5.2.1時間複雜度99
5.2.2空間複雜度99
5.3基於多類別Token頻率索引的文本分類算法104
5.3.1Token頻率統計特性104
5.3.2多類別Token頻率索引107
5.3.3算法描述108
5.4實驗結果111
5.4.1TREC07P上的tfibtc實驗111
5.4.2CSMS-P上的tfibtc實驗116
5.4.3TanCorp-12上的mtfibtc實驗118
本章小結121
第6章面向垃圾信息過濾的主動學習文本分類122
4.3組合策略76
4.3.1均權組合策略76
4.3.2支持向量模型權組合策略77
4.3.3域分類器歷史性能權組合策略80
4.3.4域文檔信息量權組合策略81
4.3.5複合權組合策略81
4.4實驗結果82
4.4.1TREC07P上的bogo實驗82
4.4.2TREC07P上的tftS3F實驗85
4.4.3CSMS-P上的bogo實驗87
4.4.4CSMS-P上的tftS3F實驗89
本章小結91
第5章面向垃圾信息過濾的時空高效文本分類92
5.1基於Token頻率索引的文本分類算法92
5.1.1統計原理92
5.1.2Token頻率索引94
5.1.3算法描述95
5.2算法複雜度分析98
5.2.1時間複雜度99
5.2.2空間複雜度99
5.3基於多類別Token頻率索引的文本分類算法104
5.3.1Token頻率統計特性104
5.3.2多類別Token頻率索引107
5.3.3算法描述108
5.4實驗結果111
5.4.1TREC07P上的tfibtc實驗111
5.4.2CSMS-P上的tfibtc實驗116
5.4.3TanCorp-12上的mtfibtc實驗118
本章小結121
第6章面向垃圾信息過濾的主動學習文本分類122
6.1問題描述與框架122
6.1.1形式化描述122
6.1.2主動多域學習框架125
6.2主動學習策略126
6.2.1時序優先主動學習策略126
6.2.2先驗區間主動學習策略127
6.2.3基於方差的非確定採樣主動學習策略127
6.3實驗結果129
6.3.1TREC07P上的10000反饋tfibtc.cs5實驗129
6.3.2TREC07P上的1000反饋tfibtc.cs5實驗131
6.3.3CSMS-P上的10000反饋tfibtc.cs5實驗133
6.3.4CSMS-P上的1000反饋tfibtc.cs5實驗135
本章小結137
第7章面向大數據的高效能垃圾文本過濾系統138
7.1研究結論138
7.1.1多域學習框架的有效性138
7.1.2NFD和ASFD分割策略的有效性139
7.1.3複合權組合策略的最優性140
7.1.4基於TFI的文本分類算法的時空高效性140
7.1.5基於方差的非確定採樣主動學習策略的有效性141
7.2高效能垃圾文本過濾系統設計141
7.2.1多Cluster垃圾文本過濾系統141
7.2.2多語種大數據深度輿情系統144
7.2.3個性化垃圾郵件過濾系統147
本章小結149
參考文獻151"
6.1.1形式化描述122
6.1.2主動多域學習框架125
6.2主動學習策略126
6.2.1時序優先主動學習策略126
6.2.2先驗區間主動學習策略127
6.2.3基於方差的非確定採樣主動學習策略127
6.3實驗結果129
6.3.1TREC07P上的10000反饋tfibtc.cs5實驗129
6.3.2TREC07P上的1000反饋tfibtc.cs5實驗131
6.3.3CSMS-P上的10000反饋tfibtc.cs5實驗133
6.3.4CSMS-P上的1000反饋tfibtc.cs5實驗135
本章小結137
第7章面向大數據的高效能垃圾文本過濾系統138
7.1研究結論138
7.1.1多域學習框架的有效性138
7.1.2NFD和ASFD分割策略的有效性139
7.1.3複合權組合策略的最優性140
7.1.4基於TFI的文本分類算法的時空高效性140
7.1.5基於方差的非確定採樣主動學習策略的有效性141
7.2高效能垃圾文本過濾系統設計141
7.2.1多Cluster垃圾文本過濾系統141
7.2.2多語種大數據深度輿情系統144
7.2.3個性化垃圾郵件過濾系統147
本章小結149
參考文獻151"