本書介紹了網際網路用戶查詢日誌挖掘及其套用研究領域的主要技術、方法與實證研究成果。全書由3篇共14章內容組成;其中,上篇對搜尋引擎用戶日誌與移動搜尋用戶日誌的研究現狀進行了系統的分析,給出了Web用戶查詢日誌挖掘研究架構;中篇介紹了基於不同類型用戶日誌所開展的實證研究結果,包括大規模Web搜尋引擎系統的用戶日誌、大型期刊資料庫的用戶日誌、移動搜尋的用戶日誌等;作為套用研究,下篇介紹基於用戶日誌進行查詢推薦的方法與輿情監測實例。
基本介紹
- 書名:Web用戶查詢日誌挖掘與套用
- 出版社:智慧財產權出版社
- 頁數:179頁
- 開本:16
- 品牌:智慧財產權出版社
- 作者:王繼民
- 出版日期:2014年3月1日
- 語種:簡體中文
- ISBN:9787513026581
基本介紹
內容簡介
作者簡介
圖書目錄
上 篇 Web用戶查詢日誌挖掘研究基礎 12
第1章 搜尋引擎日誌挖掘領域的論文合著網路分析 1
1.1 引言 1
1.2 數據準備 2
1.3 基本統計結果 3
1.4 合著網路的特徵 4
1.5 科研合作團隊 10
1.6 小結 11
參考文獻 12
第2章 移動搜尋研究的知識圖譜分析 14
2.1 引言 14
2.2 數據分析方法與工具 14
2.3 數據獲取與數據預處理 15
2.4 基本統計結果 16
2.5 基於關鍵字共現的知識圖譜分析 16
2.6 基於作者合著的知識圖譜分析 19
2.7 小結 22
參考文獻 22
第3章 移動搜尋用戶行為研究進展 24
3.1 引言 24
3.2 移動搜尋及其特點 24
3.3 移動搜尋用戶行為研究架構 26
3.4 移動搜尋用戶行為實證研究 30
3.5 小結 35
參考文獻 35
第4章 Web搜尋引擎日誌挖掘研究架構 39
4.1 引言 39
4.2 數據集與數據預處理 40
4.3 挖掘的主要內容及其結果 43
4.4 套用於系統性能的改善 47
4.5 小結 50
參考文獻 51
中 篇 基於Web用戶查詢日誌的實證研究 55
第5章 搜尋引擎用戶訪問量模型 57
5.1 引言 57
5.2 用戶查詢與點擊日誌 58
5.3 基於小波的異常訪問檢測 59
5.4 時間序列的潛周期模型 61
5.5 用戶訪問量模型 63
5.6 小結 66
參考文獻 67
第6章 中文搜尋引擎用戶日誌分析 68
6.1 引言 68
6.2 數據準備 69
6.3 用戶的查詢與點擊行為分析 70
6.4 不同查詢串、用戶量和URL數量的特徵 75
6.5 小結 76
參考文獻 77
第7章 多任務中文Web查詢分析 78
7.1 引言 78
7.2 數據集與實驗設計 79
7.3 實驗結果 80
7.4 討論 83
7.5 小結 84
參考文獻: 84
第8章 搜尋引擎用戶點擊行為分析 86
8.1 引言 86
8.2 用戶點擊日誌 87
8.3 用戶點擊URL的特徵分析 88
8.4 點擊URL的局部性與自相似性分析 94
8.5 確定相關查詢列表 97
8.6 小結 100
參考文獻 100
第9章 中文Web查詢演化的主要趨勢 102
9.1 引言 102
9.2 數據集 103
9.3 實驗設計 105
9.4 實驗結果與分析 106
9.5 小結 112
參考文獻 113
第10章 高校用戶學術期刊資料庫檢索行為研究 115
10.1 引言 115
10.2 數據來源和基本統計 115
10.3 高校用戶的檢索策略總體分析 117
10.4 高校用戶的檢索行為的深度分析 120
10.5 高校用戶學術檢索策略的影響因素模型 123
10.6 小結 125
參考文獻 126
第11章 基於用戶日誌的移動搜尋行為分析 127
11.1 引言 127
11.2 數據集和數據預處理 128
11.3 基本統計結果與分析 128
11.4 我國移動搜尋用戶的行為特徵 132
11.5 小結 132
下 篇 基於Web用戶查詢日誌的套用研究 135
第12章 利用支持向量回歸確定相關Web查詢 136
12.1 引言 136
12.2 相關研究工作 136
12.3 相關查詢的性質與支持向量回歸 137
12.4 訓練數據與實驗結果 140
12.5 小結 142
參考文獻 143
第13章 基於用戶日誌進行查詢推薦的方法及系統 145
13.1 引言 145
13.2 查詢推薦算法 146
13.3 推薦實施步驟 153
13.4 小結 160
參考文獻 160
第14章 基於Web用戶查詢日誌的網路輿情監測 161
14.1 引言 161
14.2 網路輿情監測實例 162
14.3 用戶查詢與社會事件的關係 164
14.4 小結 168
參考文獻 168
附錄1.Web搜尋引擎日誌挖掘示例系統的構建 170
附錄2.《2013年中國網民搜尋行為研究報告》摘要 180
序言
開展大規模網際網路用戶查詢日誌挖掘及其套用研究,可以發現中文用戶進行Web查詢行為的特徵與規律,改善Web檢索系統的性能(效果與效率),實現個性化信息服務,發現用戶查詢主題的變化及其與社會事件之間的關係等方面具有重要的理論與實際意義。
本書介紹了網際網路用戶查詢日誌挖掘及其套用研究領域的主要技術、方法與實證研究成果,由3篇共14章內容組成,具體如下。
上篇是對用戶查詢日誌挖掘及其套用研究的概括性分析與總論。首先利用文獻計量與社會網路分析等方法,剖析了Web搜尋引擎用戶日誌與移動搜尋用戶日誌的國內外研究熱點、主要科研團隊等研究現狀。然後給出了Web用戶查詢日誌挖掘研究架構,分別針對搜尋引擎用戶日誌和移動搜尋用戶日誌,闡明了使用何種數據分析與挖掘的理論、技術與方法,歸納並總結了目前已有的研究成果,包括:日誌挖掘的研究內容、數據集的選擇方法、數據預處理的方法、不同地域用戶行為的特徵與比較、如何套用於系統性能的改善等內容。該框架的建立可以指導一般的Web檢索系統、電子商務站點及其類似Web日誌挖掘的研究等。上篇由4章內容組成。
中篇介紹基於不同類型日誌所開展的實證研究。用戶日誌來自於北大天網大規模Web搜尋引擎系統的用戶日誌、國內某大型期刊資料庫的用戶日誌、移動搜尋的用戶日誌,這三類日誌分別涵蓋搜尋引擎的使用情況、學術期刊資料庫的使用情況和移動搜尋的使用情況,代表性較強。對這些日誌數據集,我們開展了多維度、多方法的綜合性試驗研究。取得了許多有價值的研究成果,包括:基於時間序列的用戶訪問量模型、中文Web搜尋引擎用戶檢索的一般特徵與規律、多任務中文Web查詢的特徵、用戶點擊URL的局部性與自相似性、中文Web用戶查詢行為的演化趨勢、高校用戶檢索策略的影響因素模型、國內移動搜尋用戶與傳統PC搜尋用戶的比較研究等。中篇由7章內容組成。下篇介紹套用研究方面的工作,主要包括3部分內容。其一為基於用戶日誌進行查詢推薦的一項實驗性研究。其二由一項發明專利的內容構成,所介紹的查詢推薦方法及系統具有實際可操作性。它充分利用用戶日誌的數據項,為用戶提供最可能反應其查詢意向且系統具有最佳反饋結果的查詢串。其三介紹基於用戶查詢的輿情監測實例與一個實證研究結果。下篇由3章內容組成。本書的整體邏輯框架如圖1所示。
本書內容主要來自作者近年來在該領域所做的研究工作,多數章節的內容直接來自於本人與他人合作發表的學術研究論文;其中,基於搜尋引擎實證研究的數據主要來自北大天網前幾年的用戶日誌(作為公益性中文搜尋引擎,它始終沒有商業化,近幾年的用戶訪問量較少),而主流的商業搜尋引擎如百度、谷歌等都不對外提供或不願完整提供自己的用戶日誌,這使得我們無法進一步更新這些實證研究成果。本書的部分研究工作得到中國博士後基金、教育部人文社科基金、國家社會科學基金等科研基金的資助。作者早期的研究工作是在北京大學信息科學技術學院網路實驗室做博士後時完成的,感謝合作導師李曉明教授的指導與幫助。本書中的搜尋引擎日誌分析的工作大多是與北大網路實驗室的老師和研究生們共同完成的,包括閆宏飛、彭波、孟濤、陳翀、龔筆紅等;移動搜尋和期刊資料庫檢索日誌挖掘的工作大多是與我指導的研究生們一起完成的,主要有王建冬、李雷明子、張鵬、王明星、鄭玉鳳、張玉濤等,本科生有孟凡、王一博等;我系博士後化柏林老師對書稿的完善提出了有益的建議。感謝所有與我進行過合作研究和提供幫助的老師和同學們。在寫作過程中,我們參考或借鑑了大量的中外文參考資料,由於篇幅所限或工作疏忽,有的未能一一列出,在此我們特向所有的參考文獻作者表示衷心的感謝。
本書的撰寫工作雖幾經努力,但限於能力和水平,難免有不足與疏漏之處;同時,Web用戶查詢日誌挖掘與套用屬於一個新興的研究領域,具有多學科交叉屬性;隨著網際網路的快速發展,特別是移動網際網路的普及,Web用戶的查詢行為也將產生新的變化,本書中的一些理論、技術與方法也需要進一步完善和提高。因此,懇請各位專家和讀者批評指正(E-mail:[email protected])。