搜尋結果評估與排序

搜尋結果評估與排序，是一種信息系統輸出的計算方法，它根據用戶輸入、用戶特徵和當前場景等因素來評估結果跟用戶意圖的相關性，並根據相關性和重要性對結果進行打分排序，從而返回用戶最需要的結果。對搜尋結果進行評估和排序，是所有搜尋系統需要考慮的最重要的幾個問題之一，也是目前主流搜尋引擎的核心技術，比如谷歌公司的PageRank技術，就是根據頁面的重要性對搜尋結果進行排序。

發展史：

搜尋結果評估和排序是跟搜尋系統密切相關的，它根據搜尋系統需要面臨的數據特點、數據量和用戶特點而不斷演進，同時它本身的進步也不斷推進搜尋系統的質量。

搜尋系統本身是由於人類面對的數據量越來越大而發展起來的。人類最早在用排序卡片、導航和目錄等方式來引導用戶找到需要的信息，比如作業系統的檔案系統、圖書館的藏書目錄、早期的全球資訊網導航頁面等。隨著數據量和數據類型的進一步增大，需要用戶對自己的需求轉化為一系列輸入，輸入系統進行搜尋來直接定位到自己感興趣的結果或者結果集合，如何對結果集合里的結果進行評估和排序，決定著搜尋系統的好壞。

最簡單的排序方式是對結果按照時間、位置等切面進行排序，這種排序方法沒有考慮結果的相關性和重要性，需要用戶更多的閱讀來定位，因而無法適用較大數據量的搜尋系統。

根據結果的重要性來進行排序是技術的一大突破，如何評估結果重要性是技術的核心。谷歌公司的PageRank技術根據頁面之間連結的關係來疊代計算每個頁面的重要性，並取得了巨大成功。除了谷歌等通用搜尋引擎，一些垂直類的信息系統也需要搜尋系統，比如購物網站。購物網站在用戶搜尋以後，返回給用戶的是商品，因而它在默認的排序方法中要考慮商品的重要性，比如銷量、好評、價格等因素。

根據用戶使用場景和用戶歷史行為來對結果進行相關性評估是搜尋系統目前正在努力攻克的技術。目前，該技術還遠遠沒有達到成熟的程度，並且隨著用戶對搜尋系統更高的要求（比如用戶問今年夏天去哪旅遊最實惠，需要綜合天氣、航班鐵路、酒店、人流、價格等全方面因素給出解決方案），結果評估和排序面臨更多的技術難題。

結果相關性評估和排序技術：

1) 面向多源異構信息融合的搜尋結果評價

如果一個搜尋的任務涉及不同的數據源，例如病人要搜尋去哪看病，涉及醫院信息、醫生信息、交通信息等。因此對結果的評估涉及多場景的融合，需要利用神經網路的方法來評價。神經網路包括輸入層，多個隱藏層和輸出層。輸入包括三部分：一是局部搜尋的評價結果，二是通過意圖理解獲取的對局部知識源重要性的評價，三是一個代表用戶偏好的常量。在訓練這個神經網路時，最終的評價結果標籤來自於人工標註或用戶反饋。

2）基於用戶上下文的搜尋結果評價及排序

這種方法假設用戶的上下文是有限的，並會在多種上下文間進行切換，這也符合一般用戶搜尋的情況。輸入數據會逐漸寫入歷史資料庫中。學習搜尋結果評價模型時首先對歷史數據按時間片進行劃分，然後以時間片為單位，根據數據中獲取的上下文屬性進行離線聚類，然後對每個獲得的聚簇，分別學習對應的搜尋結果評價模型。在聚類時嘗試多種粒度，並對學習到的搜尋結果評價模型和相關數據的契合程度進行評估，如果契合程度合理則記錄相關結果。線上搜尋時，從線上數據中獲取用戶上下文，根據上下文進行模型匹配，選擇一個搜尋結果評價模型或多個模型的組合作為當前模型使用。

搜尋結果評估與排序

基本介紹

發展史：

結果相關性評估和排序技術：

1) 面向多源異構信息融合的搜尋結果評價

2）基於用戶上下文的搜尋結果評價及排序

3）基於強化學習的搜尋結果評價及排序

相關詞條

熱門詞條