基本解釋
整個Web看似
雜亂無章,但如果按其所蘊涵信息的“深度”可以劃分為SurfaceWeb和DeepWeb兩大部分。SurfaceWeb是指通過超連結可以被傳統搜尋引擎索引到的頁面的集合。DeepWeb是指Web中不能被傳統的搜尋引擎索引到的那部分內容。廣義上來說,DeepWeb的內容主要包含4個方面:(1)通過填寫表單形成對後台線上資料庫的查詢而得到的動態頁面;(2)由於缺乏被指向的超連結而沒有被搜尋引擎索引到的頁面,大約占整個比例的21.3%;(3)需要註冊或其它限制才能訪問的內容;(4)Web上可訪問的非網頁檔案,比如圖片檔案、PDF和Word文檔等。
而在實際中套用中,人們則更關注於DeepWeb中的第一部分內容。其原因不難理解,這部分內容對結構化數據的集成更有意義,可以採用的技術也更豐富。DeepWeb數據集成也主要是指對結構化信息的集成,我們同時把Web中可訪問的線上資料庫稱為
Web資料庫或WDB。這些內容只有在被查詢時才會由Web伺服器動態生成頁面,把結果返回給訪問者(圖1),因此沒有超連結指向這些頁面,這是和那些可以被直接訪問的靜態頁面的根本區別。隨著Web相關技術的日益成熟和DeepWeb所蘊含信息量的快速增長,通過對
web資料庫的訪問逐漸成為獲取信息的主要手段,而對DeepWeb的研究也越來越受到人們的關注。
深網資源
動態內容
未被連結內容
私有網站
Contextual Web
被限制訪問內容
腳本化內容
非HTML/文本內容
命名
伯格曼在The Journal of Electronic Publishing上發表一篇關於深網的重大論文中提到,吉爾.艾爾斯沃夫曾經使用“隱形網”這一術語表示那些沒有被任何搜尋引擎索引註冊的網站。伯格曼還引用法蘭克·加西亞在1996年1月的一篇文章:
這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜尋引擎編列索引,以至於事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隱藏了的。我稱之為隱形網。
早期另一個使用“隱形網”這一術語的是一家叫做“個人圖書館軟體”公司的布魯斯·芒特和馬修·B·科爾,當他們公司在1996年12月推出和發行的一款軟體時,他們對深網工具的有過這樣的一番描述。
現在普遍接受的深網這一特定術語首次使用在2001年伯格曼的研究中。
索引方法
研究人員探尋了如何自動抓取深網內容。
2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亞·莫利納(Hector Garcia-Molina)發明了一個從用戶請求界面表格收集關鍵字的深網抓取模型並且抓取深網資源。
加利福尼亞大學洛杉磯分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho創建了一個自動生成有意義的查詢詞的程式。
商業搜尋引擎已經開始使用以上兩種方法之一抓取深網。Sitemap協定(由Google於2005年首次開發並由Google引入)和mod oai是允許搜尋引擎和其他網路服務探索深網解決方法。以上兩種解決方法允許網路服務主動公布網址,這對於他們來說是容易的,因而允許自動探尋資源而不直接通過網路表面的連結。Google的深網探尋系統預先計算每個HTML表單並且添加結果HTML頁面到Google搜尋引擎索引。在這個系統里,使用三種方法計算提交詞:
為輸入搜尋選擇關鍵字允許的輸入值,
確定是否只接受特定的值(例如時間),以及
選擇少量的組合生成適合納入網站的搜尋索引網址。