文本數據挖掘與Python套用

內容簡介

教材系統地介紹文本數據挖掘的相關概念，利用Python作為工具進行相關試驗，其內容主要包括：文本挖掘產生的背景及發展；文本挖掘的概念、文本模型表示、文本內容的預處理，包括分詞、去停用詞以及特徵抽取；文本相似度的概念等。介紹文本分類的概念及常用方法，如KNN算法、SVM算法等，並對分類結果進行評價；在介紹文本聚類聚類的概念時是，同樣介紹聚類常用算法，如K均值算法、層次聚類法、密度聚類法等，作為有文本分類、文本聚類的套用，最後給出了信息抽取、社會網路中的實體關係抽取和事件抽取。

作者簡介

劉金嶺，教授，碩士生導師。至2007年以來進行文本數據挖掘的研究，在專業核心期刊發表相關論文30多篇，EI檢索4篇，SCCSI檢索3篇。在2010-2013年與江蘇移動公司合作進行垃圾簡訊處理研究，2009-2011完成市級科研課題“基於語義的垃圾簡訊分類器設計與實現（HAG09061）”。

圖書目錄

第1章緒論

1.1文本挖掘的研究背景及意義

1.2文本挖掘的國內外研究現狀

1.3文本挖掘概述

1.3.1文本挖掘的概念

1.3.2文本挖掘的任務

1.3.3文本挖掘與數據挖掘的聯繫與區別

1.4文本挖掘的過程

1.5文本挖掘的主要研究領域

1.5.1文本特徵選擇

1.5.2文本結構分析

1.5.3文本摘要

1.5.4文本分類

1.5.5文本聚類

1.5.6文本關聯分析

1.5.7分布分析與趨勢預測

1.6文本挖掘在製藥行業的套用案例

習題1

第2章文本切分及特徵詞選擇

2.1文本數據採集

2.1.1軟體接口對接方式

2.1.2開放資料庫方式

2.1.3基於底層數據交換的數據直接採集方式

2.1.4網路爬蟲採集網頁數據

2.2語料庫與詞典簡介

2.2.1語料庫

文本數據挖掘與Python套用

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條