網頁消重是指刪除重複的網頁,在消重後的網頁集上建立索引再提供服務,可以保證用戶查詢時不會出現大量重複的內容,同時也減少了存儲空間。
基本介紹
- 中文名:網頁消重
- 外文名:Web page de duplication
網頁消重是指刪除重複的網頁,在消重後的網頁集上建立索引再提供服務,可以保證用戶查詢時不會出現大量重複的內容,同時也減少了存儲空間。
網頁消重是指刪除重複的網頁,在消重後的網頁集上建立索引再提供服務,可以保證用戶查詢時不會出現大量重複的內容,同時也減少了存儲空間。原因搜尋過程中產生重複的原因主要有兩個,一個是由於URL本身的構造原因產生搜尋結果重複。例...
第二節 網頁消重算法 一、消重算法 二、算法評測 第三節 小結 第八章 高性能檢索子系統 第一節 檢索系統基本技術 一、系統設計與結構 二、索引創建 三、檢索過程 第二節 適於查詢的網頁索引結構 一、倒排索引結構 二、平面位置索引...
3.4.5 網頁消重 3.4.6 避免蜘蛛陷阱 3.5 專題信息蒐集 3.5.1 網頁的主題特性 3.5.2 專題信息蒐集算法 3.6 小結 思考題 習題 參考文獻 第4章 網頁文本處理和索引 4.1 文本的特性 4.1.1 信息熵 4.1.2 統計定律 4....
第五章Web數據消重/ 39節引言/ 39 第二節相關工作與研究架構/ 40 第三節算法流程分析/ 41 第四節算法效果評估/ 44 第五節基於網頁轉載關係識別的輿情傳播態勢分析/ 47 第六章基於熵模型的中文事件抽取方法研究/ 49 第一節引言/...
第一節 網頁淨化與元數據提取 一、DocView模型 二、網頁的表示 三、提取DocView模型要素的方法 四、模型套用及實驗研究 第二節 網頁消重算法 一、消重算法 二、算法評測 第三節 小結 第八章 高性能檢索子系統 第一節 檢索系統基本...
第一節 網頁淨化與元數據提取 一、引言 二、D0cview模型 三、網頁的表示 四、提取Docview模型要素的方法 五、模型套用及實驗研究 第二節 網頁消重算法 一、消重算法 ……第八章 高性能檢索子系統 第九章 用戶行為的特徵及快取的...