position model position model假設點擊依賴於相關性(relevance)和檢驗(examination)。每一個排序位置有一個被檢驗到的確定機率,這個機率隨著排序位置遞減而遞減,並且僅依賴於排序位置。url上的一個點擊表明這個url被用戶查看並認為相關。 position model認為搜尋返回結果頁中的url是獨立的,因此不能夠在檢驗機率中捕獲不同url之間的聯繫。舉例來說,對於一個query的兩個相關性一樣的url,用戶可能僅僅點擊了排序靠前的url,滿足用戶需求,因此就結束了搜尋過程。這樣,位置偏置不能夠充分的解釋第二條url上點擊的稀少。
cascade model cascade model假設用戶順序檢驗url,直到一個相關文檔被點擊。這樣,檢驗的機率間接的依賴兩個因素:url的排序和url之前的所有url的相關性。cascade model做了一個很強的假設,即每次搜尋過程只有一次點擊,因此它不能解釋放棄搜尋或者有多於一次點擊的搜尋。 即使cascade model如此的嚴格,但在解釋排序較高的url的點擊上,依然遠好於其他position model模型。在較低的url排序位置,cascade model表現較其他position model模型相對差一些。
點擊模型相關工作
點擊模型的相關工作如下。
點擊模型一個眾所周知的挑戰是位置偏向性(position bias)。這種偏向性被Granka et al [2004]首次注意到,他們發現一個文檔排序越高,即使是不相關的,也會吸引更多的用戶點擊。此後,Richardson et al [2007]提出了對低排序位置的文檔提權;Craswell et al [2008]把這種思想形式化為檢驗假設(examination hypothesis)。給定一個查詢 和一個排序位置是 的文檔 ,檢驗假設假定給定檢驗事件 下二值點擊事件 的機率如下:
檢驗假設的一種重要擴展是UBM模型[Georges Dupret and Benjamin Piwowarski, SIGIR'08]。UBM假設檢驗事件 不僅依賴於位置 ,也依賴於同一個query session里前面的點擊位置 , , 意味著之前沒有點擊。全局參數 表征了從位置 到位置 的轉移機率。我們用 表示 :
使用UBM的一個類似的模型是貝葉斯瀏覽模型(BBM)[C. Liu et al, 2009],BBM採用貝葉斯方法把每個隨機變數作為機率分布推導,這類似於General Click Model(GCM, [Z. Zhu et al, 2010])。GCM考慮了大量的偏向性來擴展模型,並說明了以前的模型都是GCM的特例。Hu et al[2011]擴展UBM描述點擊日誌里的查詢意圖的多樣性。Chen et al[2011]提出了一個全頁的點擊模型,這個模型考慮到了搜尋結果頁的所有結果,包括自然結果和廣告結果,把搜尋結果作為一個整體來幫助CTR預測。
對cascade模型兩個重要的改進是CCM[F, Guo et al, 2009]和DBN[O Chapelle and Y. Zhang, 2009]模型。兩個模型都強調了檢驗機率也依賴於前面文檔的點擊和相關性。此外,允許用戶停止檢驗,即放棄搜尋。CCM使用了前面文檔的相關性信息,而DBN則引入了一個用戶滿意的參數 。這個參數表明如果用戶對當前點擊的文檔滿意,那么他將不會再瀏覽下面的文檔。否則,存在一個機率 用戶繼續搜尋。
這裡 是一個表示用戶滿意的隱事件。
有三個其他的模型沒有套用cascade assumption。SUM(session utility model, [G. Dupret and C. Liao, 2010]),給定一個query,點擊文檔集合的相關性以用戶停在這個query session的機率來表征。adPredictor 模型([T. Graepel et al, 2010])以線性組合帶權值的特徵來解釋點擊率。PRM(pure relevance model, [R. Srikant et al, 2010])認為一個文檔的相關性不是恆定不變的,而是受其他位置的點擊影響。
TCM(Task-centric Click Model, [Yuchen Zhang et al, 2011])不同於上述的假設和方法。TCM針對如何對包括多個query和query會話的整個搜尋會話作為一個整體和動態的實體進行探索。TCM是整合了整個搜尋會話數據的一個更加細緻和有效的點擊模型。