網路信息挖掘

Web信息挖掘

Web信息挖掘可以廣義地定義為從WWW中發現和分析有用的信息。網路信息挖掘(Web Mining)技術是在已知數據樣本的基礎上，通過歸納學習、機器學習、統計分析等方法得到數據對象間的內在特性，據此採用信息過濾技術在網路中提取用戶感興趣的信息，獲得更高層次的知識和規律。

網路信息挖掘大致分為4個步驟，資源發現，即檢索所需的網路文檔；信息選擇和預處理，即從檢索到的網路資源中自動挑選和預先處理得到專門的信息；概括化，即從單個的Web站點以及多個站點之間發現普遍的模式，分析，即對挖掘出的模式進行確認或解釋。根據挖掘的對象不同，網路信息挖掘可以分為網路內容挖掘、網路結構挖掘和網路用法挖掘。

Web信息挖掘中的關鍵技術

目標樣本的特徵提取

網路信息挖掘系統採用向量空間模型，用特徵詞條及其權值代表目標信息。在進行信息匹配時，使用這些特徵項評價未知文本與目標樣本的相關程度。特徵詞條及其權值的選取稱為目標樣本的特徵提取，特徵提取算法的優劣將直接影響到系統的運行效果。詞條在不同內容的文檔中所呈現出的頻率分布是不同的，因此可以根據詞條的頻率特性進行特徵提取和權重評價。

一個有效的特徵項集應該既能體現目標內容，也能將目標同其它文檔相區分，因此詞條權重正比於詞條的文檔內頻數，反比於訓練文本內出現該詞條的文檔頻數。

與普通的文本檔案相比，HTML文檔中有明顯的標識符，結構信息更加明顯，對象的屬性更為豐富。系統在計算特徵詞條權值時，充分考慮HTML文檔的特點，對於標題和特徵信息較多的文本賦予較高權重。為了提高運行效率，系統對特徵向量進行降維處理，僅保留權值較高的詞條作為文檔的特徵項，從而形成維數較低的目標特徵向量。

中文分詞處理

我們要處理的信息主要是文本信息。為使準確提取文檔的主題信息，更好地建立特徵模型，就要建立主詞庫、同義詞庫、蘊含詞庫等詞典庫，並以此作為提取主題。一個好的專業詞典將會極大的提高主題提取的準確性。中文詞的切分問題是網路信息挖掘中的一項關鍵技術之一。《中國分類主題詞表》由於其學科體系的完整性和規範性，無疑是非常適合作詞庫。對於專業要求較高的數據挖掘以及在實際使用中出現的不符合要求的地方，可在該詞表的基礎上進行擴充和修改，這裡引入了圖書館學中後控的思想，即通過對詞表的規範來控制URL標引的準確性。

獲取網路中的動態信息

Robot是傳統搜尋引擎的重要組成部分，它依照HTTP協定讀取Web頁面並根據HTML文檔中的超鏈在WWW上進行自動漫遊，Robot也被稱為Spider、Worm或Crawler。但Robot只能獲取Web上的靜態頁面，而有價值的信息往往存放在網路資料庫中，人們無法通過搜尋引擎獲取這些數據，只能登錄專業信息網站，利用網站提供的查詢接口提交查詢請求，獲取並瀏覽系統生成的動態頁面。網路信息挖掘系統則通過網站提供的查詢接口對網路資料庫中的信息進行遍歷，並根據專業知識庫對遍歷的結果進行自動的分析整理，最後導入本地的信息庫。

網路信息挖掘

Web信息挖掘

Web信息挖掘中的關鍵技術

目標樣本的特徵提取

中文分詞處理

獲取網路中的動態信息

Web信息挖掘技術流程的實現

什麼是信息

相關詞條

熱門詞條