《21世紀高等院校電子商務教育系列教材:基於語義的Web數據挖掘》講述隨著網際網路的發展,近年來關於Web數據挖掘的研究方興未艾,加之多年從事數據挖掘方面的教學工作,筆者一直希望撰寫一本這方面的書,以饗瀆者,其目的就是作為想了解和進入Web數據挖掘研究和買踐領域的工作者的“他山之石”,幫助他們把握本領域的全貌,掌握研究和解決Web數據挖掘問題的切人點。伴隨網際網路的套用,社區、論壇、微博上留下了浩瀚的數據信息,這些數據蘊藏著巨大的商機和社會價值。與此同時,Web上信息爆炸與知識貧乏的矛盾依然存在,如何在海量的Web數據中發現知識,並用於社會實踐,仍然是亟待解決的問題。
基本介紹
- 書名:21世紀高等院校電子商務教育系列教材:基於語義的Web數據挖掘
- 作者:馬剛
- 出版社:東北財經大學出版社
- 頁數:404頁
- 開本:16
- 定價:42.00
- 外文名:Semantic Web Data Mining
- 類型:數據倉庫、數據挖掘
- 出版日期:2014年1月1日
- 語種:簡體中文
- ISBN:9787565413759
- 品牌:東北財經大學出版社
內容簡介,圖書目錄,文摘,
內容簡介
《21世紀高等院校電子商務教育系列教材:基於語義的Web數據挖掘》的目的在於比較系統地介紹基於語言的Web數據挖掘的基本理論、方法與實踐。《21世紀高等院校電子商務教育系列教材:基於語義的Web數據挖掘》適於本科生和研究生教學使用,也可以為相關領域研究人員與實踐工作者提供參考。
圖書目錄
第1章Web數據挖掘概述
學習目標
1.1 Web數據挖掘基礎
1.2 Web數據挖掘套用
1.3 Web數據挖掘面臨的挑戰
1.4 Web數據挖掘的研究熱點及發展趨勢
本章小結
複習思考題
第2章Web挖掘的內容及使用技術
學習目標
2.1 Web內容挖掘
2.2 Web結構挖掘
2.3 Web使用挖掘
2.4 Web挖掘的實現技術
本章小結
複習思考題
第3章Web抓取
學習目標
3.1 Web抓取概述
3.2網路爬蟲的抓取過程
3.3 Web抓取中的主要知識
3.4幾種不同類型的爬蟲
3.5 舉例分析網路蜘蛛抓取網頁的實現方法
3.6爬蟲的軟體實現
本章小結
複習思考題
第4章信息檢索與Web搜尋
學習目標
4.1信息檢索概述
4.2信息檢索模型與算法
4.3關聯性反饋
4.4網頁的預處理
4.5倒排索引及其壓縮
4.6 Web搜尋
本章小結
複習思考題
第5章Web網頁信息預處理
學習目標
5.1 Web網頁信息預處理概述
5.2 Web網頁信息抽取的主要技術
5.3 網頁預處理中的一些關鍵技術
本章小結
複習思考題
第6章詞法分析
學習目標
6.1中文分詞概述
6.2典型的中文分詞算法及工具
6.3典型分詞方法示例
6.d詞性自動標註技術
本章小結
複習思考題
第7章句法分析
學習目標
7.1 句法分析的理論基礎
7.2句法分析的基本方法
7.3句法分析的語法體系
本章小結
複習思考題
第8章文本情感傾向分析
學習目標
8.1文本情感傾向分析概述
8一情感詞語級傾向性分析
8.3修飾極性判斷
8.4句子情感傾向分析
8.5文本情感傾向分析
本章小結
複習思考題
第9章觀點挖掘
學習目標
9.1觀點型主觀性文本
9.2主題抽取
9.3觀點表達者識別
……
第10章Web數據挖掘套用案例
第11章語義網
第12章Web數據挖掘與語義網
主要參考文獻
學習目標
1.1 Web數據挖掘基礎
1.2 Web數據挖掘套用
1.3 Web數據挖掘面臨的挑戰
1.4 Web數據挖掘的研究熱點及發展趨勢
本章小結
複習思考題
第2章Web挖掘的內容及使用技術
學習目標
2.1 Web內容挖掘
2.2 Web結構挖掘
2.3 Web使用挖掘
2.4 Web挖掘的實現技術
本章小結
複習思考題
第3章Web抓取
學習目標
3.1 Web抓取概述
3.2網路爬蟲的抓取過程
3.3 Web抓取中的主要知識
3.4幾種不同類型的爬蟲
3.5 舉例分析網路蜘蛛抓取網頁的實現方法
3.6爬蟲的軟體實現
本章小結
複習思考題
第4章信息檢索與Web搜尋
學習目標
4.1信息檢索概述
4.2信息檢索模型與算法
4.3關聯性反饋
4.4網頁的預處理
4.5倒排索引及其壓縮
4.6 Web搜尋
本章小結
複習思考題
第5章Web網頁信息預處理
學習目標
5.1 Web網頁信息預處理概述
5.2 Web網頁信息抽取的主要技術
5.3 網頁預處理中的一些關鍵技術
本章小結
複習思考題
第6章詞法分析
學習目標
6.1中文分詞概述
6.2典型的中文分詞算法及工具
6.3典型分詞方法示例
6.d詞性自動標註技術
本章小結
複習思考題
第7章句法分析
學習目標
7.1 句法分析的理論基礎
7.2句法分析的基本方法
7.3句法分析的語法體系
本章小結
複習思考題
第8章文本情感傾向分析
學習目標
8.1文本情感傾向分析概述
8一情感詞語級傾向性分析
8.3修飾極性判斷
8.4句子情感傾向分析
8.5文本情感傾向分析
本章小結
複習思考題
第9章觀點挖掘
學習目標
9.1觀點型主觀性文本
9.2主題抽取
9.3觀點表達者識別
……
第10章Web數據挖掘套用案例
第11章語義網
第12章Web數據挖掘與語義網
主要參考文獻
文摘
著作權頁:
插圖:
4.6.1 Web搜尋的定義
當今資訊時代,Web上的信息搜尋已經成為影響人類物質文明和精神文明進程的重大問題。其原因在於:信息作為與物質和能量同等重要的資源為人們所認識和利用,社會的發展、技術的進步、物質文化生活水平的提高空前地刺激了人們對信息的需求。
在此所談的Web搜尋,是指在以全球資訊網為典型代表的網路上檢索、過濾和推薦信息的理論、方法、技術、系統和服務,也稱網路搜尋。
檢索、過濾和推薦這三者既有密切的聯繫,又有顯著的區別。如下:
(1)檢索是由用戶提出查詢需求,然後系統根據這個需求對Web信息進行查詢並給出結果。
(2)過濾是系統根據預先設定的條件,對Web上只與該條件相符的信息進行獲取、隔離和封裝。
(3)推薦是系統將用戶需要的重要信息從大量的一般信息中抽取出來,並主動推薦給用戶。
之所以將Web信息的檢索、過濾和推薦統稱為Web搜尋,一方面是因為這三者都需要系統在Web中“尋找”與需求相符的信息,並且這種“尋找”通常是要花“力氣”的,是在Web上的一種“搜尋”。另一方面,與Web信息搜尋有關的研究、開發和套用雖然名目繁多,但主要內容均可歸納為檢索、過濾和推薦這三個方面。
4.6.2 Web搜尋的發展背景
Web搜尋是在網路和數字內容等信息技術的強力推動下發展起來的。
Web信息的海量化,一方面為滿足人們的需求提供了無盡的可能,另一方面也使人們在海量的信息中查詢變得更加困難。因為在信息海洋中找到最需要的東西常常宛如大海撈針。人們永遠懷疑得到的東西是不是最好的,因為無法證明是否還有更好的。最糟糕的是,如果沒有有效的技術手段,找到比較好的、比較滿意的東西都是困難的。
搜尋引擎在這種背景下應運而生,並迅速得到大眾的青睞。使用先進的搜尋引擎,可以為用戶的信息檢索提供有效的幫助,使用戶在較短的時間內得到比較滿意的結果。大眾對搜尋引擎的依賴也迅速使其成為信息產業的發展熱點,幾年之內就造就了多家世界頂級企業。
插圖:
4.6.1 Web搜尋的定義
當今資訊時代,Web上的信息搜尋已經成為影響人類物質文明和精神文明進程的重大問題。其原因在於:信息作為與物質和能量同等重要的資源為人們所認識和利用,社會的發展、技術的進步、物質文化生活水平的提高空前地刺激了人們對信息的需求。
在此所談的Web搜尋,是指在以全球資訊網為典型代表的網路上檢索、過濾和推薦信息的理論、方法、技術、系統和服務,也稱網路搜尋。
檢索、過濾和推薦這三者既有密切的聯繫,又有顯著的區別。如下:
(1)檢索是由用戶提出查詢需求,然後系統根據這個需求對Web信息進行查詢並給出結果。
(2)過濾是系統根據預先設定的條件,對Web上只與該條件相符的信息進行獲取、隔離和封裝。
(3)推薦是系統將用戶需要的重要信息從大量的一般信息中抽取出來,並主動推薦給用戶。
之所以將Web信息的檢索、過濾和推薦統稱為Web搜尋,一方面是因為這三者都需要系統在Web中“尋找”與需求相符的信息,並且這種“尋找”通常是要花“力氣”的,是在Web上的一種“搜尋”。另一方面,與Web信息搜尋有關的研究、開發和套用雖然名目繁多,但主要內容均可歸納為檢索、過濾和推薦這三個方面。
4.6.2 Web搜尋的發展背景
Web搜尋是在網路和數字內容等信息技術的強力推動下發展起來的。
Web信息的海量化,一方面為滿足人們的需求提供了無盡的可能,另一方面也使人們在海量的信息中查詢變得更加困難。因為在信息海洋中找到最需要的東西常常宛如大海撈針。人們永遠懷疑得到的東西是不是最好的,因為無法證明是否還有更好的。最糟糕的是,如果沒有有效的技術手段,找到比較好的、比較滿意的東西都是困難的。
搜尋引擎在這種背景下應運而生,並迅速得到大眾的青睞。使用先進的搜尋引擎,可以為用戶的信息檢索提供有效的幫助,使用戶在較短的時間內得到比較滿意的結果。大眾對搜尋引擎的依賴也迅速使其成為信息產業的發展熱點,幾年之內就造就了多家世界頂級企業。