網路信息檢索用戶行為可靠性分析關鍵技術研究

《網路信息檢索用戶行為可靠性分析關鍵技術研究》是依託清華大學,由張敏擔任項目負責人的面上項目。

基本介紹

  • 中文名:網路信息檢索用戶行為可靠性分析關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:張敏
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

用戶行為分析是當前信息檢索研究和套用中的一個重要方向。當前研究工作基礎是群體智慧假設(高頻查詢中大多數用戶的一致行為是可靠的)和點擊相關性假設(被用戶點擊的結果與查詢相關)。它們隨著研究的深入已經不能滿足要求:1、無法研究網際網路檢索中占獨立同查詢總數80%以上的大量非高頻查詢行為;2、點擊行為與相關性並不完全一致,現有工作缺乏對不同行為的有效性和重要性的區分。因此,針對用戶行為可靠性的研究由於其必要性及基礎性地位開始受到國內外研究和產業界的重視。本項目基於大規模用戶日誌研究網路信息檢索的用戶行為可靠性。研究從單次查詢點擊、獨立檢索會話(session)、及用戶三個層次展開,分析用戶檢索互動行為模式,特別是深入研究非高頻的查詢及點擊行為,建立多層用戶點擊行為可靠性模型,構建完整的用戶行為可靠性分析框架,並提出有效的融合方法,為信息檢索用戶行為分析及相關套用研究提供重要基礎。

結題摘要

用戶行為分析在信息檢索相關研究和搜尋引擎套用實踐中是一個非常重要的課題。然而用戶行為數據中存在大量的噪聲:用戶行為具有隨意性,不同用戶的可信程度也有所區別,還存在大量的作弊點擊行為等。文檔被用戶“點擊即相關”的假設也不完全成立。此外,傳統的用戶行為分析工作都針對高頻查詢展開,無法解決數據稀疏的長尾查詢中的問題。因此,隨著相關研究和實踐的深入開展,用戶行為可靠性分析的重要性和必要性就凸顯了出來,而對低頻查詢的分析也成為一個不可迴避的問題。 本項目面向信息檢索開展了用戶行為的可靠性分析。項目研究按照預定的計畫順利完成。研究工作從四個方面展開:(一)多粒度多層次的用戶行為可靠性分析:從查詢粒度、用戶點擊粒度、會話(即用戶一個需求下的全部查詢點擊)粒度分別進行用戶行為可靠性分析,在每個層次上提出了相應的可靠性分析計算模型。(二)用戶可靠性的建模:根據用戶在找到相關文檔的能力差異、搜尋行為偏好差異、使用搜尋引擎的專家程度差異等三個角度,對用戶的可靠性進行建模。(三)基於用戶行為可靠性的模型構建及套用:基於上述多層次和多粒度的用戶行為可靠性分析,針對檢索和推薦兩個套用問題,分別建立了長尾查詢的檢索模型和基於可靠性的協同過濾推薦模型。(四)基於用戶行為可靠性的評價,包括用戶點擊作弊識別,以及針對信息檢索中的難點問題——長尾查詢——的自動性能評價。通過上述研究工作,實現了從意圖理解、查詢點擊、檢索、評價整個環節上的用戶行為可靠性研究。 本項目的特色與創新之處在於:1、從查詢、點擊、會話等多個粒度建立了用戶行為可靠性分析的完整框架並建立了可計算的模型,特別是在框架中引入了用戶的可靠性這一概念,全面深入地分析了用戶行為的可靠性,研究成果可以成為整個用戶行為分析研究工作的基礎。2、針對長尾查詢的用戶行為可靠性這一難點問題進行了深入分析,從查詢意圖理解、查詢推薦與改寫、檢索排序方法以及性能評價等各個環節,建立了相應的模型,最終改進了基於可靠性分析的長尾查詢的檢索性能。3、結合心理學研究方法和實驗手段,對用戶檢驗行為、用戶搜尋偏好等進行了深入的分析,並提出了新的點擊模型,這是計算機科學與心理學在網路信息檢索的一個成功的研究交叉。4、所提出的方法在獲得研究界較高評價與認可的同時,在中文商業搜尋引擎搜狗的大規模線上服務中也得到了成功套用,顯著提高了搜尋引擎性能,表明了所提出方法的真實有效性。

相關詞條

熱門詞條

聯絡我們