面向大數據的高效能垃圾文本分類

內容簡介

《面向大數據的高效能垃圾文本分類》全面介紹了大數據時代垃圾信息的爆發態勢和文本特性，並根據信息文檔的多域結構特性和文本Token頻率分布的冪律特性，提出了多域學習的思想，研究了一整套面向大數據的高效能垃圾文本分類方法。《面向大數據的高效能垃圾文本分類》可以作為普通高等院校、科研機構大數據計算技術相關專業高年級本科生或研究生的實驗教材，也可供網路信息技術公司高級研究人員參考。

作者簡介

劉伍穎(1980.01-)，男，江西九江人，博士，講師。畢業於國防科學技術大學計算機學院，分別於2002年、2005年、2011年獲得計算機科學與技術專業學士、碩士、博士學位。已在SIGIR、AIRS、Knowledge and Information Systems等國內外學術會議和期刊上發表論文30餘篇，其中被scI檢索4篇，被cPcI—s檢索4篇，被EI核心檢索12篇。獲得智慧型摘要軟體等計算機軟體著作權3項。主持科研項目2項。主要研究領域為自然語言處理(信息檢索、信息過濾、機器翻譯、自動文摘)和人工智慧(機器學習、數據挖掘、文本分類)。

圖書目錄

第1章大數據與垃圾信息1
1.1大數據時代的垃圾信息1
1.1.1大數據和垃圾信息爆發1
1.1.2垃圾信息過濾研究項目3
1.1.3垃圾信息過濾研究意義10
1.2垃圾信息範疇12
1.2.1垃圾電子郵件12
1.2.2垃圾手機簡訊13
1.2.3廣義垃圾信息14
1.2.4文本垃圾信息14
1.3文本垃圾信息態勢15
1.3.1國際垃圾郵件態勢15
1.3.2我國垃圾郵件態勢17
1.3.3我國垃圾手機簡訊態勢19
1.4研究動機與內容21
1.4.1科學問題與挑戰21
1.4.2研究內容與結構22
1.4.3研究成果25
本章小結28
第2章垃圾信息過濾方法概述29
2.1基於協定的垃圾信息過濾29
2.1.1基於SMTP的方法30
2.1.2基於IP的方法31
2.2基於內容的垃圾信息過濾33
2.2.1基於規則的方法34
2.2.2基於統計的方法35
2.2.3神經網路方法38
2.2.4集成學習方法39
2.3垃圾信息過濾性能評價方法41
2.3.1當前性能評價方法41
2.3.2ROC曲線評價方法42
2.3.3整體性能評價方法43
本章小結44
第3章信息文檔的文本統計特性45
3.1信息文檔的正文特性45
3.1.1電子郵件和手機簡訊語料45
3.1.2正文文本長度特性46
3.1.3正文和Token重複特性49
3.2信息文檔的結構特性50
3.2.1信息文檔格式50
3.2.2域間文本特徵52
3.3Token頻率分布的冪律特性54
3.3.1冪律54
3.3.2郵件文檔和郵件域文檔55
3.3.3簡訊文檔和簡訊域文檔60
本章小結64
第4章面向垃圾信息過濾的多域學習文本分類66
4.1問題描述與框架66
4.1.1形式化描述66
4.1.2多域學習框架70
4.2分割策略72
4.2.1自然域文檔分割策略73

面向大數據的高效能垃圾文本分類

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條