本書從Web文本的信息抽取、聚類、分類、信息檢索等技術出發,與讀者分享作者多年的研究和開發經驗。作者為:何慧,陳博與張瑩。ISBN:9787121298271。
基本介紹
- 書名:Web文本挖掘技術理論與套用
- 作者:何慧,陳博,張瑩
- ISBN:9787121298271
- 頁數:112
- 定價:49.00
- 出版社:電子工業出版社
- 出版時間:2017-06
- 裝幀:平裝
- 開本:16開
基本信息,內容簡介,目錄信息,
基本信息
Web文本挖掘技術理論與套用
作 譯 者:何慧,陳博,張瑩
出版時間:2017-06
千 字 數:122
版 次:01-01
頁 數:112
開 本:16開
I S B N :9787121298271
內容簡介
隨著網際網路和通訊網的迅猛發展,網路文本成為信息的主要載體及人們生活中不可或缺的主要信息來源,文本挖掘技術的研究意義和實用價值越來越突出。另一方面,隨著Web 2.0時代的到來,出現了越來越多的由用戶創作的網路數字內容。用戶數字內容的大量產生和傳播使得短文本計算、Web文本信息抽取、文本情感分析等逐漸成為Web文本挖掘研究的熱點問題。本書從Web文本的信息抽取、聚類、分類、信息檢索等技術出發,與讀者分享作者多年的研究和開發經驗。
目錄信息
第1章 概論 1
1.1 研究的背景和意義 1
1.2 文本挖掘相關技術概述及研究現狀 2
1.2.1 文本分類概述及研究現狀 3
1.2.2 文本聚類概述及研究現狀 5
1.2.3 信息抽取概述及研究現狀 6
1.2.4 文本檢索概述及研究現狀 7
1.3 文本挖掘領域亟待解決的問題 8
1.4 本書的研究內容與結構安排 11
參考文獻 13
第2章 基於統計語言模型的短文本計算 18
2.1 引言 18
2.2 文本信息處理基礎知識 19
2.2.1 文本的表示 19
2.2.2 特徵選擇 21
2.3 基於N-gram的特徵提取和RPCL的短文本聚類算法 22
2.3.1 相關工作 23
2.3.2 算法描述 23
2.3.3 實驗及分析 28
2.4 小結 31
參考文獻 31
第3章 面向廣告推薦和情感分析的Web文本信息抽取 35
3.1 引言 35
3.2 信息抽取常用算法和模型 36
3.2.1 N-gram語言模型 36
3.2.2 隱馬爾可夫模型 37
3.2.3 最大熵模型 38
3.3 基於隱馬爾科夫模型的半監督中文複合詞抽取算法 41
3.3.1 相關工作 42
3.3.2 算法描述 42
3.3.3 實驗及分析 46
3.4 基於最大熵和LMR模板的中文情感詞抽取算法 48
3.4.1 相關工作 49
3.4.2 算法描述 50
3.4.3 實驗及分析 51
3.5 小結 55
參考文獻 55
第4章 基於監督和半監督的文本情感分類 59
4.1 引言 59
4.2 常用的監督和半監督文本分類算法 60
4.2.1 常用文本分類算法 61
4.2.2 半監督文本分類算法 63
4.3 文本情感分類的研究現狀 66
4.3.1 主客觀分類 66
4.3.2 情感極性分類 66
4.4 基於帶先驗的最大熵歌詞情感分類 68
4.4.1 相關工作 68
4.4.2 歌詞語料集統計信息 69
4.4.3 算法描述 71
4.4.4 實驗及分析 74
4.5 基於圖的半監督學習文本情感分類算法 76
4.5.1 算法描述 77
4.5.2 實驗及分析 79
4.6 小結 82
參考文獻 82
第5章 文本觀點檢索研究 89
5.1 引言 89
5.2 相關研究 89
5.3 文本觀點檢索系統設計與評測 90
5.3.1 COAE2008觀點檢索任務、數據及相關評測指標 91
5.3.2 文本觀點檢索系統 92
5.4 小結 96
參考文獻 96
第6章 總結與展望 99
6.1 本文的工作總結 99
6.2 未來的工作展望 101