WEB挖掘

Web挖掘是數據挖掘在Web上的套用,它利用數據挖掘技術從與WWW相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域,是一項綜合技術。Web內容挖掘。Web內容挖掘是指對Web頁面內容及後台交易資料庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。

基本介紹

  • 中文名:WEB挖掘
  • 外文名:WEB mining
  • 類型數據挖掘
  • 利用:數據挖掘技術等
WEB挖掘-介紹,WEB挖掘-如何實現,Web內容挖掘實現技術,Web使用記錄挖掘實現技術,WEB挖掘-能挖到什麼,

WEB挖掘-介紹

Web內容挖掘。Web內容挖掘是指對Web頁面內容及後台交易資料庫進行挖掘,從Web文檔內容及其描述中的內容信息中獲取有用知識的過程。同時還可以對Web的組織結構和連結關係進行挖掘,從人為的連結結構中獲取有用的知識。由於文檔之間的互連,WWW能夠提供除文檔內容之外的有用信息。利用這些信息,可以對頁面進行排序,發現重要的頁面。
·Web使用記錄挖掘。Web使用記錄挖掘是通過挖掘相應站點的日誌檔案和相關數據來發現該站點上的瀏覽者的行為模式,獲取有價值的信息的過程。
Web挖掘的目標是從Web的超連結結構、網頁內容和使用日誌中探尋有用的信息。雖然Web挖掘使用了許多數據挖掘技術,但它並不僅僅是傳統數據挖掘的一個簡單套用。在過去20年中,許多新的挖掘任務和算法被相繼發明。依據在挖掘過程中使用的數據類別,Web挖掘任務可以被劃分為三種主要類型:Web結構挖掘、Web內容挖掘和Web使用挖掘。

WEB挖掘-如何實現

Web挖掘發展自數據挖掘。數據挖掘方法通常可以分為兩類:一類是建立在統計模型的基礎上,採用的技術有決策樹、分類、聚類關聯規則等;另一類是建立一種以機器學習為主的人工智慧模型,採用的方法有神經網路自然法則計算方法等。

Web內容挖掘實現技術

Web上的內容挖掘多為基於文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分標記,如Title、Head等包含的額外信息,可以提高Web文本挖掘的性能。
·文本總結。文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內容。
·文本分類。分類是在已有數據的基礎上學會一個分類函式或構造出一個分類模型,即通常所說的分類器
·文本聚類。文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。
·關聯規則。發現關聯規則的算法通常要經過以下三個步驟:連線數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。

Web使用記錄挖掘實現技術

在挖掘Web用戶使用記錄時描述用戶訪問的數據包括:IP位址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。
發現用戶使用記錄信息的方法有兩種。一種方法是通過對日誌檔案進行分析,包含兩種方式:一是先進行預處理,即將日誌數據映射為關係表並採用相應的數據挖掘技術來訪問日誌數據;二是直接訪問日誌數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的蒐集和分析發現用戶導航行為。

WEB挖掘-能挖到什麼

· 獲取競爭對手和客戶信息。Web不僅由頁面組成,而且還包含了從一個頁面指向另一個頁面的超連結。一個Web頁面的作者建立指向另一個頁面的指針,就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的註解收集起來,就可以用來反映該頁面的重要性,並可以很自然地用於權威頁面的發現。另外一種重要的Web頁面是一個或多個Web頁面,它提供了指向權威頁面的連結集合,稱為Hub。Hub頁面本身可能並不突出,或者說可能沒有幾個連結指向它們,但是 Hub頁面卻提供了指向就某個話題而言最為突出的站點的連結。通過分析這類信息,企業可以獲得零售商、中間商、合作商以及競爭對手的信息。
· 發現用戶訪問模式。通過分析和探究Web日誌記錄中的規律,可以識別電子商務的潛在客戶,提高對最終用戶的服務質量,並改進Web伺服器系統的性能。 Web日誌記錄資料庫提供了有關Web動態的,基於URL、時間、IP位址和Web頁面內容的豐富信息,對它們進行分析,有助於發現潛在客戶、用戶和市場,有助於聚類用戶並將用戶分門別類,以實現個性化的市場服務。
·反競爭情報活動。反競爭情報是企業競爭情報活動的重要組成部分。忽視競爭對手的競爭情報活動、低估競爭對手蒐集競爭情報的能力勢必導致企業失去已有的競爭優勢。Web站點是企業與外界進行交流的視窗,同時也是競爭對手獲取競爭情報的一個重要信息源。在競爭情報計算機系統中,可以充分利用Web挖掘技術,通過運用分析訪問者的IP位址、客戶端所屬域、信息訪問路徑,統計敏感信息訪問率等方法識別競爭對手,保護企業敏感性信息。

相關詞條

熱門詞條

聯絡我們