搜尋意圖理解:發展史,套用,分類,場景感知的意圖理解,時空相關的意圖理解,多模態的

搜尋意圖理解是指基於用戶偏好、時空特性、上下文、互動、以及文本、手勢、圖像和視頻等在內的多模態信息等內容，在語義級上準確理解用戶的意圖，並以支持高效查詢推演的統一模型進行表示。通過將搜尋輸入內容轉換為機器可識別的表示語言，深度學習用戶思維，統一搜尋查詢視圖，從而將用戶搜尋轉換為機器可識別的語言模型，便於機器理解搜尋意圖。例如用戶搜尋關鍵字“Apple”，如果在12月份搜尋，則大量返回關於聖誕節的結果，而在其它遠離12月份的時間點，則很可能返回iPhone手機、電腦的相關結果。當你搜尋“眼科醫院”，你會發現北京地區出現的是“北京某眼科醫院”，而在上海地區搜尋，卻出現的是“上海某眼科醫院”。

基本介紹

中文名：搜尋意圖理解
外文名：Search intention understanding
分類：大搜尋意圖理解

發展史,套用,分類,場景感知的意圖理解,時空相關的意圖理解,多模態的意圖理解,多通道交叉驗證的意圖理解,用戶偏好的意圖理解,

發展史

基於場景感知的意圖理解方面，早期的工作孤立的用某一維度的上下文信息理解用戶的意圖。2008年，微軟亞洲研究院的Jie Bao等學者（美國明尼蘇達州明尼蘇達大學計算機科學與工程學系）將位置信息考慮進去理解用戶的意圖以便進一步的推薦。2013年，Yuan（愛爾蘭都柏林城市大學）等學者考慮時間信息來理解用戶意圖。2015年Zhang等（香港計算機科學城大學）等學者則同時考慮位置的，來自社會信息的信息和類別信息等各種類型的信息融合來理解用戶意圖。Zhao（多媒體大數據分析與套用深圳研究中心，中國深圳南山區中文大學。香港中文大學計算機科學與工程學系）等學者考慮時空序列信息用戶意圖的理解。隨著社交網路，物聯網路等各種泛在網路的迅速發展，各種各樣的上下場景信息，時空信息等將被挖掘和充分利用起來，用於理解用戶意圖，以便更精準的搜尋。

在基於多模態協同的意圖理解方面，早期主要研究面向文本查詢的用戶意圖理解。Broder（IBM研究中心）最早提出將查詢的意圖類劃分成三類。2004年，Rose 等人（雅虎公司）研究在文本的網路任務中，用戶查詢的意圖和其潛在的目標之間的關係， 2010年，Lux等學者（克拉根福大學）研究在基於文本的圖像搜尋中用戶意圖的本質。2012年，代爾夫特理工大學的Alan等學者（代爾夫特理工大學多媒體信息檢索實驗室）則進一步研究基於文本的視頻搜尋中用戶意圖的本質。新加坡國立大學的Zhang等學者(新加坡國立大學)研究面向基於圖像視覺內容查詢的過程中，通過關聯語義和意圖鴻溝提高了圖像檢索的性能。Zhang(合肥工業大學計算機與信息學院)等學者則提出了一個基於循環神經網路RNN的意圖意識的，以視頻鏡頭作為查詢的視頻檢索系統。

在基於互動的意圖理解方面，早期主要是在基於語音的對話互動中，通過語音的分析，理解用戶的意圖（德國人工智慧研究中心）。現實世界是多模態互動式的，因而查詢的對象也應該是多模態的。由於多模態信息的異構性，基於多模態查詢的互動協同檢索的用戶意圖理解更具有挑戰性。受益於計算機視覺技術的迅速發展，傳統的方法可以採用計算機視覺方法將多模態信息轉化為語義信息，這些語義信息通常都是以文本詞或者句子表示（清華大學計算機科學與技術系）。此外，引入直接或者間接的反饋可以進一步改進用戶意圖的理解，緩解用戶查詢過程中面臨的鴻溝。例如，Kolfer(阿爾托大學赫爾辛基信息技術學院)提出互動意圖建模通過計算建模（針對互動進行可視化呈現）增強人類信息探索能力，同時通過用戶界面幫助用戶進行搜尋和探索。然而多模態信息無法全部的通過文本語義信息表示。此外，對基於用戶理解意圖的多媒體搜尋給予了全面的介紹和綜述。

套用

主要面向搜尋領域，尤其是大搜尋領域，包括各種垂直搜尋領域，如公開情報搜尋，健康醫療搜尋，司法搜尋，物聯網搜尋和位置服務搜尋服務，為其精準搜尋提供技術基礎。

分類

場景感知的意圖理解

中文名：場景感知的意圖理解

英文名：Context awareness based intention understanding

定義：

針對用戶搜尋意圖通常受到由諸如用戶搜尋任務、搜尋歷史、興趣主題、社會互動行為、情感狀態等一些列顯式和隱式上下文場景因素的影響而動態變化的問題，基於場景感知的意圖理解研究用戶信息需求和複雜內容排序存在影響的多種上下文因素，基於這些因素研究合理準確的表示方法，來理解用戶的意圖，從而為用戶提供個性化的搜尋結果。

發展史：

場景感知不僅僅基於顯式的外在行為（例如用戶查詢詞修改，對文章的點擊、瀏覽和標註，用戶之間的信息推薦，等），而大量複雜內容的有效排序依賴於更多的有待發掘的隱含因素，其本質上是用戶內在認知狀態及其動態變化的體現，例如用戶對當前搜尋領域背景知識的了解程度、用戶當前的情感因素、相關性判斷標準等等。因而有必要對這些顯式和隱式上下文建立統一的數學形式化描述，同時嘗試各種新的、跨學科的手段來感知用戶認知狀態的可測量特徵（如情感狀態、眼球運動模式、神經生理信號等）及其和用戶認知狀態的深刻聯繫。

另外一方面，在當前移動化和社會化的大趨勢下，用戶的行為及上下文場景越發具有高度社會性。如何能根據用戶的社會關係網路和用戶之間實時的互動行為（如根據用戶對某些新聞的評論、用戶之間的對話）實時得到當前用戶的情感極性和興趣點，亦會對理解用戶搜尋意圖起到非常重要的作用。早期的工作孤立的用某一維度的上下文信息理解用戶的意圖。2008年，微軟亞洲研究院Jie Bao等學者將位置信息考慮進去理解用戶的意圖以便進一步的推薦。2013年，愛爾蘭都柏林城市大學Yuan等學者考慮時間信息來理解用戶意圖。2015年，香港計算機科學城大學Zhang等學者則同時考慮位置的，來自社會信息的信息和類別信息等各種類型的信息融合來理解用戶意圖。2017年，多媒體大數據分析與套用深圳研究中心、中國深圳南山區中文大學、香港中文大學計算機科學與工程學系Zhao等學者考慮時空序列信息用戶意圖的理解。隨著社交網路，物聯網路等各種泛在網路的迅速發展，各種各樣的上下場景信息，時空信息等將被挖掘和充分利用起來，用於理解用戶意圖，以便更精準的搜尋。Wang等學者提出了一種適應於不同用戶搜尋結果排序的算法；李貴林等在企業搜尋引擎個性化表示與結果排序算法研究中根據用戶歷史瀏覽記錄進行聚類，分析用戶的意圖；DuhK等學者提出了一種用戶部分標註的方法來對搜尋結果進行排序。

時空相關的意圖理解

中文名：時空相關的意圖理解

英文名：Spatiotemporal correlative intention understanding

定義：

基於時空相關的意圖理解是指用戶在查詢表達式中沒有給出時間或空間限定詞，查詢過程會根據執行查詢的時間、地理位置的不同理解此次查詢的潛在時間或空間意圖。如用戶搜尋關鍵字“Apple”，如果在12月份搜尋，則大量返回關於聖誕節的結果，而在其它遠離12月份的時間點，則很可能返回iPhone手機、電腦的相關結果。當你搜尋“口腔醫院”，你會發現重慶地區出現的是“重慶某口腔醫院”，而在上海地區搜尋，卻出現的是“上海某口腔醫院”。

發展史：

對時間和空間屬性的搜尋意圖的研究工作，主要包括：Kanhabua等學者將查詢時間屬性分為時間不敏感型和時間敏感型兩類；Jones等學者將潛在時間意圖查詢分為需求最新型、歧義型和非歧義型三類；空間敏感型查詢是指查詢應該考慮用戶的地理位置，針對不同地理位置的用戶返回不同的查詢結果，即Gravano等學者提出的局域(Local)查詢，而空間不敏感型則無需考慮用戶所在具體位置，不論用戶在什麼地方執行查詢均返回同樣的結果，即全局(Global)查詢；Ding等學者進一步將局域查詢細分為三個級別:國家級、州(省)級和城市級，Jones等學者對查詢的地理屬性做了更細緻的劃分。2008年，微軟亞洲研究院Jie Bao等學者將位置信息考慮進去理解用戶的意圖以便進一步的推薦。2013年，愛爾蘭都柏林城市大學Yuan等學者考慮時間信息來理解用戶意圖。2015年，香港計算機科學城大學Zhang等學者則同時考慮位置的，來自社會信息的信息和類別信息等各種類型的信息融合來理解用戶意圖。2017年，多媒體大數據分析與套用深圳研究中心、中國深圳南山區中文大學、香港中文大學計算機科學與工程學系Zhao等學者考慮時空序列信息用戶意圖的理解。

多模態的意圖理解

中文名：多模態的意圖理解

英文名：Intention comprehensionof multimodality

摘要：

現實世界是多模態互動式的，因此用戶查詢對象的信息數據普遍也是多模態的。因此，除了最為普遍的文字以外，圖片、視頻、音頻等多模態的數據也能夠套用於輔助理解用戶的搜尋意圖，以此提高信息服務的準確度。

定義詳情：

現實世界的對象無法僅僅只以某一種形式的數據進行正確描述，因而其互動都為多模態的形式，用戶的查詢對象也是如此。因此，除了最為普遍的文字以外，圖片、視頻、音頻等多模態的數據也能夠套用於輔助理解用戶的搜尋意圖。

由於多模態信息的異構性，基於多模態查詢的互動協同檢索的用戶意圖理解更具有挑戰性。但受益於計算機視覺技術的迅速發展，傳統的方法可以採用計算機視覺方法將多模態信息轉化為語義信息，這些語義信息通常都是以文本詞或者句子表示。

此外，引入直接或者間接的反饋可以進一步改進用戶意圖的理解，緩解用戶查詢過程中面臨的斷層。例如，Ruotsalo等人提出互動意圖建模通過計算建模（針對互動進行可視化呈現）增強人類信息探索能力，同時通過用戶界面幫助用戶進行搜尋和探索。

然而多模態信息無法全部的通過文本語義信息表示。因為這樣的語義信息無法準確的傳達多模態信息其他很多方面的信息，比如視覺信息所蘊含的視覺風格，心理視覺因素等。因此語義信息和多模態內容需要綜合考慮，需要在包含文本和視覺等的多模態信息與用戶行為和意圖之間建立一種映射。

多通道交叉驗證的意圖理解

中文名：多通道交叉驗證的意圖理解

英文名：Intention comprehensionof multichannel cross-validation

摘要：

自然語言充滿了歧義與不確定性，因此明確用戶的信息需求是一件困難的工作。失敗與誤解常常發生，用戶往往會因此無法獲得正確的目標數據。

但若是驗證用戶的信息需求，則能夠有效的修正檢索的目標與方向，大大提高信息檢索服務的準確率。而通過多種途徑所完成的驗證則具有更強的權威性。

定義詳情：

在信息檢索研究中，通過分析用戶互動模式特徵進行隱相關反饋進而提高文檔排序準確性的研究日益增多，例如基於查詢歷史和文檔點擊歷史，也包括其它互動特徵如停留時間、顯示時間和滾動條、視線追蹤和面部表情等等。這些互動信息可以用來預測用戶的潛在需求。

Buscher等人提出了一個模型，該模型能夠基於過去點擊歷史和一些用戶瀏覽行為的簡化假設預測在初始搜尋結果中的文檔被點擊的機率。

更進一步的是，Arapakis，Dupret以及Singla為代表的三組研究工作利用搜尋/瀏覽路徑（從每個點擊的初始搜尋到路徑終點的群體用戶的瀏覽路徑）來建立預測模型以尋找每次搜尋結果的最優路徑。

除此之外，White提出建模用戶互動行為的動態性以根據以往的互動歷史來預測進一步的用戶行為。West採用眼動實驗和滑鼠痕跡等對用戶的閱讀和點擊行為進行了深入分析，擴展了點擊模型進行行為建模，在搜尋引擎排序過程中取得了很好的效果。而Radinsky等人從用戶認知判斷著手，關注於查詢意圖理解及相關性判斷，提出DeepRank框架去模擬人類判斷過程，並取得了更好的實驗效果。

用戶偏好的意圖理解

中文名：用戶偏好的意圖理解

英文名：Intention comprehensionof User preferences

摘要：

即使是同一件事物，不同的用戶所側重的關注點也有可能迥然相異，而一般化的信息檢索服務往往會忽視這類問題，從而導致用戶信息需求的獲取失敗。為了這種問題，針對特定用戶的意圖理解技術是十分必要的。

為此，為用戶建立個人畫像，並以此為基礎實現的具有針對性的意圖理解即為用戶偏好的意圖理解。

定義詳情：

社會媒體數據包含有豐富的（個人或群體）用戶的行為及屬性信息，基於社會媒體進行個人畫像，然後進行意圖理解是一個重要研究方向。社會化檢索和推薦可以整合內容和社會網路信息來提高相關信息的發現與推薦的用戶滿意度。

通常，這些社會網路信息包括：個體用戶信息，例如用戶過往瀏覽打分紀錄、時空信息、閱讀水平等；以及群體用戶信息，例如同社區用戶和相似用戶的信息以及社會化標註。從社會媒體上獲取情感（sentiment）也成為了當前的一個研究熱點。如何能根據用戶實時的互動行為（如根據用戶對某些新聞的評論、用戶之間的對話）實時得總結出當前用戶的情感極性，亦會對理解用戶搜尋意圖起到非常重要的作用。

Das與Chen提出了“社會化搜尋引擎”的概念，並實現了一個融合探索式信息檢索功能和線上社會化聊天功能的社會化搜尋引擎原型系統。工業界，例如谷歌，也開始嘗試將聊天功能和搜尋功能做簡單的結合，如某融合了搜尋引擎功能手機輸入法可以將置信度較高的搜尋結果摘要（人物，地點等）直接傳送到聊天視窗，一些即時聊天工具會根據當天聊天內容推薦一些用戶可能感興趣的內容或廣告。但是，學術界還沒有針對社會化信息探索背後的認知特性做深入的研究，用戶在這個過程中認知狀態如何變化尚未得到明確的解析。

搜尋意圖理解

基本介紹

發展史

套用

分類

場景感知的意圖理解

時空相關的意圖理解

多模態的意圖理解

多通道交叉驗證的意圖理解

用戶偏好的意圖理解

相關詞條

熱門詞條