內容簡介
教材系統地介紹文本數據挖掘的相關概念,利用Python作為工具進行相關試驗,其內容主要包括:文本挖掘產生的背景及發展;文本挖掘的概念、文本模型表示、文本內容的預處理,包括分詞、去停用詞以及特徵抽取;文本相似度的概念等。介紹文本分類的概念及常用方法,如KNN算法、SVM算法等,並對分類結果進行評價;在介紹文本聚類聚類的概念時是,同樣介紹聚類常用算法,如K均值算法、層次聚類法、密度聚類法等,作為有文本分類、文本聚類的套用,最後給出了信息抽取、社會網路中的實體關係抽取和事件抽取。
作者簡介
劉金嶺,教授,碩士生導師。至2007年以來進行文本數據挖掘的研究,在專業核心期刊發表相關論文30多篇,EI檢索4篇,SCCSI檢索3篇。在2010-2013年與江蘇移動公司合作進行垃圾簡訊處理研究,2009-2011完成市級科研課題“基於語義的垃圾簡訊分類器設計與實現(HAG09061)”。
圖書目錄
第1章緒論
1.1文本挖掘的研究背景及意義
1.2文本挖掘的國內外研究現狀
1.3文本挖掘概述
1.3.1文本挖掘的概念
1.3.2文本挖掘的任務
1.3.3文本挖掘與數據挖掘的聯繫與區別
1.4文本挖掘的過程
1.5文本挖掘的主要研究領域
1.5.1文本特徵選擇
1.5.2文本結構分析
1.5.3文本摘要
1.5.4文本分類
1.5.5文本聚類
1.5.6文本關聯分析
1.5.7分布分析與趨勢預測
1.6文本挖掘在製藥行業的套用案例
習題1
第2章文本切分及特徵詞選擇
2.1文本數據採集
2.1.1軟體接口對接方式
2.1.2開放資料庫方式
2.1.3基於底層數據交換的數據直接採集方式
2.1.4網路爬蟲採集網頁數據
2.2語料庫與詞典簡介
2.2.1語料庫