實體(entity)搜尋是相對於關鍵字(keyword)搜尋而言的。
概述,類型,實現步驟,作用,實體搜尋新動態,實體搜尋發展現狀,
概述
實體搜尋是相對於關鍵字搜尋而言的,傳統的關鍵字搜尋雖然目前已經可以達到很高的"智慧型"水平,搜尋結果在很大程度上可以幫助用戶找到需要的信息。但對於"搜尋引擎"這個系統自身而言,其實並不了解搜尋詢問本身有什麼意思,對於搜尋對象,搜尋引擎做的事情基本差不多。搜尋引擎無法直接回答詢問,只能做一個信息的中轉。
類型
(1)數據
實體搜尋需要前期花大量的時間和精力在建立關於實體的信息數據。傳統的html並不是一個有效的信息載體,至少截至目前,主流的htmltag對於信息組織而言是沒有實際意義的。結構化數據通過html展現出來以後,原有的屬性信息都丟失了。也許在資料庫中,一部電影和導演的關係是可以通過關係資料庫表體現出來的,但html中td,tr之類的標籤是無法表示這種關係的。
(2)產品
數據建設是為了搜尋引擎產品服務的,在數據層面積累的基礎上,需要通過搜尋產品來體現數據的價值。 除了將實體信息直接作為類似百科形式直接使用外,產品層面上已經逐步產生了很多有意思的新內容。
實現步驟
(1)web實體屬性的提取和消歧
(2) 實體信息分類
(3) 實體關係挖掘
作用
(1)提高用戶的體驗度
(2)減少用戶的搜尋時間
(3)用戶得到更加精準的搜尋結果
實體搜尋新動態
3月,百度聯合CCF(中國計算機學會)舉辦了以NLP(自然語言處理)技術為方向的“實體搜尋”競賽——2016“百度杯”國際自然語言理解與智慧型分析技術競賽,宣告了百度對人工智慧發展的重視。
實體搜尋發展現狀
搜尋引擎發展有三個階段:也就是web graph(網頁圖譜)、social graph(社交圖譜)和entity graph(實體圖譜)。web graph把網頁連線到一起,social graph把人連線到一起,接下來就是把實體連線到一起。搜尋發展十多年,第一階段戰鬥基本結束。接下來,搜尋還有社交和實體兩次洗牌機會。Facebook和必應正在進軍社交搜尋領域。