基於特徵建模最佳化與判別學習的Web spam識別技術研究

項目摘要

Web spam已成為Web信息檢索麵臨的重要問題，開展該研究有利於spam識別，其理論成果也可用於識別敏感頁面。目前研究大多通過定義啟發式函式實現spam頁面識別，精度不高、泛化能力差。課題擬從spam頁面特徵建模及最佳化，不平衡數據的過取樣處理及基於問題相關的判別學習算法幾方面對該問題進行系統研究，提出spam特徵識別模型及最佳化策略，構建引入spam頁面局部及全局一致性特點的識別函式，同時研究使用遷移學習技術，充分利用相關問題輔助訓練樣例，建立Web spam識別的系統化理論模型及算法，提高spam識別效果及算法泛化能力。

結題摘要

(1) 項目背景一般地，在搜尋結果中越是排在前面的網站，就意味著它的重要程度越高，也就能吸引到更多的用戶訪問它，因此給它帶來的商業利潤也越大。因此，垃圾網頁製作者出於經濟或商業利益，採用各種各樣的不正當手段欺騙搜尋引擎，達到在搜尋結果中排序靠前，從而獲取較高點擊率的目的。近些年來，Web spamming已逐漸成為困擾搜尋引擎的嚴重問題，它使垃圾網頁排在某些正常網頁前面，騙取用戶點擊，嚴重干擾用戶獲取信息。這在很大程度上破壞搜尋質量，降低用戶對搜尋引擎的信任度。 (2) 主要研究內容按照課題研究計畫，我們蒐集、閱讀了大量相關科技文獻，及時跟蹤學術前沿，並組織了專家討論會，制定了詳細的研製計畫，針對web頁面特徵選擇、web頁面與spam頁面不平衡問題以及針對判別學習技術在spam頁面識別方面存在的問題，我們做了大量的工作，並取得了一系列研究成果。項目組深入全面地研究了網頁特徵，提出把網頁特徵作為垃圾網頁識別的輔助手段；建立內容特徵和連結特徵的協同模型用於檢測垃圾網頁；基於嵌套旋轉森林對垃圾網頁的不平衡數據集分類；利用自標記技術結合多分類器模型，對垃圾網頁的不平衡數據集分類；利用網頁排分檢測垃圾網頁；基於網路連結結構利用雙向趨勢信息反饋進行垃圾網頁檢測；基於擬合特徵分布的垃圾網頁檢測方法；基於結合內容特徵的TrustRank算法改進；基於獨立成分分析和協同訓練的垃圾網頁檢測；基於多視圖典型相關分析的垃圾網頁檢測；基於SMOTE和隨機森林的Web spam檢測，等等。 (3) 重要結果、關鍵數據及其科學意義等特徵選擇及最佳化方面。分析正常頁面與Spam頁面間判別能力大的特徵，選擇相關特徵，同時利用典型分析技術，將多視圖特徵加以融合，，提高頁面識別的準確率，取得了很好的效果；過採樣方面。提出了基於同分布假設，生成少數類樣本的技術。只有保持數據分布不變的情況下，實現少數類樣例過採樣，才能學習到無偏的分類器。豐富的實驗結果表明，該方法有利於提高少數類的分類精度；識別算法方面。依據spam問題特點，充分考慮頁面間的局部及全局一致性，定義適用問題的目標最佳化函式，提出了改進的SVM分類算法。其他成果研究表明，針對特徵層面、數據層面及算法層面的研究可以有益結合，提高spam頁面的識別效率。

基於特徵建模最佳化與判別學習的Web spam識別技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條