基於人工智慧的人機互動方法和系統

基於人工智慧的人機互動方法和系統

《基於人工智慧的人機互動方法和系統》是百度線上網路技術(北京)有限公司於2015年9月7日申請的專利,該專利申請號為2015105633382,公布號為CN105068661A,公布日為2015年11月18日,發明人是王海峰、吳華、田浩、趙世奇、孫雯玉、吳甜、忻舟、馬艷軍、呂雅娟。

《基於人工智慧的人機互動方法和系統》公開了一種基於人工智慧的人機互動方法和系統,其中,基於人工智慧的人機互動方法包括以下步驟:接收用戶通過套用終端輸入的輸入信息;根據用戶的輸入信息獲取用戶的意圖信息,並根據意圖信息將輸入信息分發至至少一個互動服務子系統;接收至少一個互動服務子系統返回的返回結果;以及按照預設的決策策略根據返回結果生成用戶返回結果,並將用戶返回結果提供至用戶。《基於人工智慧的人機互動方法和系統》實施例實現了人機互動系統從工具化轉變為擬人化,通過聊天、搜尋等服務讓用戶在智慧型互動的過程中獲得輕鬆愉悅的互動體驗。並從關鍵字形式的搜尋改進為基於自然語言的搜尋,用戶可以使用靈活自如的自然語言來表達需求,多輪的互動過程更接近人與人之間的互動體驗。

2021年6月24日,《基於人工智慧的人機互動方法和系統》獲得第二十二屆中國專利金獎。

(概述圖為《基於人工智慧的人機互動方法和系統》摘要附圖)

基本介紹

  • 中文名:基於人工智慧的人機互動方法和系統
  • 公布號:CN105068661A
  • 公布日:2015年11月18日
  • 申請號:2015105633382
  • 申請日:2015年9月7日
  • 申請人:百度線上網路技術(北京)有限公司
  • 發明人:王海峰、吳華、田浩、趙世奇、孫雯玉、吳甜、忻舟、馬艷軍、呂雅娟
  • 地址:北京市海淀區上地十街10號百度大廈三層
  • 代理機構:北京清亦華智慧財產權代理事務所
  • 代理人:宋合成
  • Int. Cl.:G06F3/01(2006.01)I;G06F17/30(2006.01)I
  • 類別:發明專利
專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,技術領域,權利要求,實施方式,專利榮譽,

專利背景

人工智慧(Artificial Intelligence)是計算機科學的一個分支,英文縮寫為AI,是研究、開發用於模擬、延伸和擴展人的智慧型的理論、方法、技術及套用系統的一門新的技術科學。
隨著科技的不斷進步,搜尋引擎已成為人們生活中必不可少的部分,並日趨智慧型化。截至2015年9月7日,傳統的搜尋引擎的互動方式是用戶輸入搜尋關鍵字,搜尋引擎返回與用戶需求相關的搜尋結果,並按照相關性由高到低的順序排序。用戶可瀏覽和點擊搜尋結果,並從中選擇感興趣或有需求的信息和內容。其中,有的搜尋引擎利用了框計算技術與知識圖譜技術。框計算技術主要是搜尋引擎針對用戶輸入的查詢關鍵字直接提供結果或者服務。例如:用戶在搜尋引擎中搜尋“北京天氣”、“人民幣美元匯率”、“五一放假”等關鍵字,都可以在搜尋結果頁面的最頂端展現結果。而知識圖譜技術旨在將與用戶需求相關的知識組織並展現成一張“知識圖”,以滿足用戶對背景知識的需求以及延伸的需求。例如搜尋“劉德華”,通過知識圖譜技術,搜尋引擎可展現劉德華的身高、生日、影視作品等背景知識,以及“張學友”、“朱麗倩”等其他相關人物。
另外,有的搜尋系統還可以基於自然語言,通過與用戶進行互動問答的方式,向用戶提供所需的資源。例如:在智慧型手機端,用戶可以通過如:蘋果siri、谷歌google now、百度語音助手等移動套用來獲取所需資源。上述套用主要通過語音作為載體,以自然語言的形式向系統發出本地服務、網上搜尋等指令,並以語音播報的形式向用戶反饋結果。此外,用戶還可以向深度問答系統提問,獲得相應的答案。例如“黃河流經哪幾個省”、“英國的首都是哪座城市”等。
截至2015年9月7日,在實現《基於人工智慧的人機互動方法和系統》過程中,發明人發現相關技術中至少存在如下問題:當前系統只能用於回答相關知識庫中已存在的簡單問題,而對於複雜度較高、時效性強、與用戶主觀觀點相關的深度問題等,則很難做出有效回答。對於基於自然語言的搜尋系統,在當前話題結束後,系統需要繼續等待用戶提出的下一個話題,然後再進行回答。由於缺乏話題之間的關聯的信息,系統無法主動地延續或者引導出新的話題,無法像人與人之間那樣進行持續地互動,缺乏主動性和聯想力。

發明內容

專利目的

《基於人工智慧的人機互動方法和系統》旨在至少在一定程度上解決相關技術中的技術問題之一。為此,該發明的一個目的在於提出一種基於人工智慧的人機互動方法,該方法能夠基於自然語言進行多輪互動及搜尋,將人機互動系統從工具化轉變為擬人化的智慧型系統。
《基於人工智慧的人機互動方法和系統》的第二個目的在於提出一種基於人工智慧的人機互動系統。

技術方案

為了實現專利目的,《基於人工智慧的人機互動方法和系統》第一方面實施例提出了一種基於人工智慧的人機互動方法,包括:接收用戶通過套用終端輸入的輸入信息;根據所述用戶的輸入信息獲取所述用戶的意圖信息,並根據所述意圖信息將所述輸入信息分發至至少一個互動服務子系統;接收所述至少一個互動服務子系統返回的返回結果;以及按照預設的決策策略根據所述返回結果生成用戶返回結果,並將所述用戶返回結果提供至所述用戶。
《基於人工智慧的人機互動方法和系統》第二方面實施例提出了一種基於人工智慧的人機互動系統,包括:第一接收子系統,用於接收用戶通過套用終端輸入的輸入信息;分發子系統,用於根據所述用戶的輸入信息獲取所述用戶的意圖信息,並根據所述意圖信息將所述輸入信息分發至至少一個互動服務子系統;第二接收子系統,用於接收所述至少一個互動服務子系統返回的返回結果;生成子系統,用於按照預設的決策策略根據所述返回結果生成用戶返回結果;以及提供子系統,用於將所述用戶返回結果提供至所述用戶。

改善效果

《基於人工智慧的人機互動方法和系統》實施例的基於人工智慧的人機互動系統,包含以下優點:(1)實現了人機互動系統從工具化轉變為擬人化,通過聊天、搜尋等服務,讓用戶在智慧型互動的過程中獲得輕鬆愉悅的互動體驗,而不再僅僅是搜尋和問答。(2)從關鍵字形式的搜尋改進為基於自然語言的搜尋,用戶可以使用靈活自如的自然語言來表達需求,多輪的互動過程更接近人與人之間的互動體驗。(3)實現從用戶主動搜尋演變為全天候的陪伴式服務,基於用戶的個性化模型可以隨時隨地為用戶提供推薦等服務。

附圖說明

圖1是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於人工智慧的人機互動方法的流程圖。
圖2是根據《基於人工智慧的人機互動方法和系統》一個實施例的按照預設的決策策略根據返回結果生成用戶返回結果的流程圖。
圖3是根據《基於人工智慧的人機互動方法和系統》一個實施例的需求滿足服務子系統執行步驟的流程圖。
圖4是根據《基於人工智慧的人機互動方法和系統》一個實施例的垂類服務模組執行步驟的流程圖。
圖5是根據《基於人工智慧的人機互動方法和系統》一個實施例的與用戶進行至少一輪的互動得到用戶需要的查詢結果的具體過程的流程圖。
圖6是根據《基於人工智慧的人機互動方法和系統》一個實施例的獲取對應查詢詞的相關信息的過程的流程圖。
圖7是包含查詢詞的相關信息的用戶界面的示意圖一。
圖8是包含查詢詞的相關信息的用戶界面的示意圖二。
圖9是包含查詢詞的相關信息的用戶界面的示意圖三。
圖10是包含查詢詞的相關信息的用戶界面的示意圖四。
圖11是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統執行步驟的流程圖。
圖12是根據《基於人工智慧的人機互動方法和系統》一個實施例的引導和推薦服務子系統執行步驟的流程圖。
圖13是根據《基於人工智慧的人機互動方法和系統》一個實施例的話題圖譜的效果示意圖。
圖14是根據《基於人工智慧的人機互動方法和系統》一個實施例的網路文本數據為半結構化數據時的效果示意圖。
圖15是根據《基於人工智慧的人機互動方法和系統》一個實施例的網路文本數據為結構化數據時的效果示意圖。
圖16是根據《基於人工智慧的人機互動方法和系統》一個實施例的獲取用戶瀏覽行為數據的效果示意圖。
圖17是根據《基於人工智慧的人機互動方法和系統》一個實施例的建立話題圖譜的效果示意圖。
圖18是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於人工智慧的人機互動系統的結構示意圖一。
圖19是根據《基於人工智慧的人機互動方法和系統》一個實施例的生成子系統的結構示意圖一。
圖20是根據《基於人工智慧的人機互動方法和系統》一個實施例的生成子系統的結構示意圖二。
圖21是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於人工智慧的人機互動系統的結構示意圖二。
圖22是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於人工智慧的人機互動系統的結構示意圖三。
圖23是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於人工智慧的人機互動系統的結構示意圖四。
圖24是根據《基於人工智慧的人機互動方法和系統》一個實施例的需求滿足服務子系統的結構示意圖。
圖25是根據《基於人工智慧的人機互動方法和系統》一個實施例的垂類服務模組的結構示意圖。
圖26是根據《基於人工智慧的人機互動方法和系統》一個實施例的互動子模組的結構示意圖一。
圖27是根據《基於人工智慧的人機互動方法和系統》一個實施例的互動子模組的結構示意圖二。
圖28是根據《基於人工智慧的人機互動方法和系統》一個實施例的第四獲取單元的結構示意圖。
圖29是根據《基於人工智慧的人機互動方法和系統》一個實施例的深度問答服務模組的結構示意圖。
圖30是根據《基於人工智慧的人機互動方法和系統》一個實施例的生成子模組的結構示意圖一。
圖31是根據《基於人工智慧的人機互動方法和系統》一個實施例的生成子模組的結構示意圖二。
圖32是根據《基於人工智慧的人機互動方法和系統》一個實施例的生成子模組的結構示意圖三。
圖33是根據《基於人工智慧的人機互動方法和系統》一個實施例的信息搜尋服務模組的結構示意圖一。
圖34是根據《基於人工智慧的人機互動方法和系統》一個實施例的信息搜尋服務模組的結構示意圖二。
圖35是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖一。
圖36是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖二。
圖37是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於搜尋的聊天模組的結構示意圖。
圖38是根據《基於人工智慧的人機互動方法和系統》一個實施例的富知識聊天模組的結構示意圖。
圖39是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於畫像的聊天模組的結構示意圖一。
圖40是根據《基於人工智慧的人機互動方法和系統》一個實施例的基於畫像的聊天模組的結構示意圖二。
圖41是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖三。
圖42是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖四。
圖43是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖五。
圖44是根據《基於人工智慧的人機互動方法和系統》一個實施例的聊天服務子系統的結構示意圖六。
圖45是根據《基於人工智慧的人機互動方法和系統》一個實施例的引導和推薦服務子系統的結構示意圖一。
圖46是根據《基於人工智慧的人機互動方法和系統》一個實施例的引導和推薦服務子系統的結構示意圖二。
圖47是根據《基於人工智慧的人機互動方法和系統》一個實施例的引導和推薦服務子系統的結構示意圖三。

技術領域

《基於人工智慧的人機互動方法和系統》涉及人工智慧技術領域,尤其涉及一種基於人工智慧的人機互動方法和系統。

權利要求

1、一種基於人工智慧的人機互動方法,其特徵在於,包括以下步驟:接收用戶通過套用終端輸入的輸入信息;根據所述用戶的輸入信息獲取所述用戶的意圖信息,並根據所述意圖信息將所述輸入信息分發至至少一個互動服務子系統;接收所述至少一個互動服務子系統返回的返回結果;以及按照預設的決策策略根據所述返回結果生成用戶返回結果,並將所述用戶返回結果提供至所述用戶;所述互動服務子系統包括需求滿足服務子系統、引導和推薦服務子系統和聊天服務子系統中的一種或多種;所述方法,還包括:所述需求滿足服務子系統獲取用戶輸入的問題信息;所述需求滿足服務子系統根據所述問題信息獲取用戶的用戶需求信息;所述需求滿足服務子系統根據所述用戶需求信息將所述問題信息分發至對應的至少一個問答服務模組;以及所述需求滿足服務子系統接收所述至少一個問答服務模組返回的問答結果,並對所述問答結果進行決策以確定最終的問答結果;所述問答服務模組包括阿拉丁服務模組、垂類服務模組、深度問答服務模組和信息搜尋服務模組;所述方法,還包括:所述深度問答服務模組接收所述問題信息;所述深度問答服務模組根據所述問題信息獲取對應的問題類型;所述深度問答服務模組根據所述問題類型選擇對應的問答模式,並根據選擇的答案生成模式和所述問題信息生成對應的問答結果。
2、如權利要求1所述的方法,其特徵在於,所述將所述用戶返回結果提供至所述用戶具體包括:將所述用戶返回結果轉化為自然語言並播報給所述用戶。
3、如權利要求1所述的方法,其特徵在於,還包括:接收用戶的定製任務信息;以及根據所述定製任務信息將所述輸入信息分發至至少一個互動服務子系統。
4、如權利要求1所述的方法,其特徵在於,所述套用終端包括PC端、移動終端或智慧型機器人。
5、如權利要求1所述的方法,其特徵在於,如果所述用戶返回結果包括執行指令,則所述方法還包括:將所述執行指令傳送至對應的執行子系統,並通過所述執行子系統進行執行。
6、如權利要求1所述的方法,其特徵在於,所述按照預設的決策策略根據所述返回結果生成用戶返回結果具體包括:獲取所述輸入信息的需求分析特徵;獲取所述互動服務子系統返回的返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵;根據所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵對所述返回結果進行決策以確定所述用戶返回結果。
7、如權利要求6所述的方法,其特徵在於,所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵分別對應有各自的決策權重。
8、如權利要求7所述的方法,其特徵在於,還包括:根據所述用戶的日誌基於增強學習模型對所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵的決策權重進行訓練。
9、如權利要求1所述的方法,其特徵在於,還包括:獲取與所述用戶互動的互動上文信息;根據所述互動上文信息對所述輸入信息進行補全。
10、如權利要求1所述的方法,其特徵在於,當所述問題類型為實體類型時,所述根據選擇的答案生成模式和所述問題信息生成對應的問答結果具體包括:根據所述問題信息生成實體類問題信息;基於搜尋引擎抓取的摘要和歷史展現日誌對所述實體類問題信息進行擴展以生成同族實體問題信息簇,其中,所述同族實體問題信息簇分別對應候選答案;從所述同族實體問題信息簇分別對應候選答案中抽取候選實體;計算所述候選實體的置信度;以及將所述置信度大於預設定信度閾值的候選實體作為問答結果進行反饋。
11、如權利要求1所述的方法,其特徵在於,當所述問題類型為觀點類型時,所述根據選擇的答案生成模式和所述問題信息生成對應的問答結果具體包括:獲取所述問題信息對應的候選答案;對所述候選答案進行切分以生成多個候選答案短句;對所述多個候選答案短句進行聚合以生成觀點聚合簇;判斷所述觀點聚合簇的觀點類型;根據所述觀點類型從所述觀點聚合簇中選擇出答案觀點,並生成所述答案觀點對應的摘要;對所述答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。
12、如權利要求11所述的方法,其特徵在於,所述對所述多個候選答案短句進行聚合以生成觀點聚合簇具體包括:提取所述多個候選答案短句中的關鍵字;計算每兩個所述關鍵字之間的向量夾角和/或語義相似度;對所述向量夾角小於預設角度或語義相似度大於預設閾值的所述候選答案進行聚合以生成觀點聚合簇。
13、如權利要求1所述的方法,其特徵在於,當所述問題類型為片段類型時,所述根據選擇的答案生成模式和所述問題信息生成對應的問答結果具體包括:獲取所述問題信息對應的候選答案;對所述候選答案進行切分以生成多個候選答案短句;對所述多個候選答案短句進行重要度打分以生成所述候選答案短句對應的短句重要度特徵;根據所述短句重要度特徵生成答案摘要;根據所述答案摘要的短句重要度特徵對答案質量進行打分,並根據打分結果對候選答案進行排序;將排序結果作為問答結果進行反饋。
14、如權利要求13所述的方法,其特徵在於,所述根據所述答案摘要的短句重要度特徵對答案質量進行打分具體包括:根據所述答案摘要的短句重要度特徵、答案權威性、問題信息的相關性和答案的豐富度對答案質量進行打分。
15、如權利要求13所述的方法,其特徵在於,所述根據打分結果對候選答案進行排序具體包括:獲取用戶的行為數據;以及根據所述用戶的行為數據和所述打分結果對所述候選答案進行排序。
16、如權利要求1-15任一項所述的方法,其特徵在於,還包括:所述信息搜尋服務模組接收所述問題信息;所述信息搜尋服務模組根據所述問題信息進行搜尋以生成多個候選網頁;所述信息搜尋服務模組對所述候選網頁進行篇章分析以生成對應的摘要,並將摘要作為問答結果進行反饋。
17、如權利要求16所述的方法,其特徵在於,所述對候選網頁進行篇章分析以生成對應的摘要具體包括:對所述候選網頁進行篇章分析以生成對應的候選篇章;對所述候選篇章中的句子進行打分排序;以及根據打分排序結果生成所述摘要。
18、如權利要求17所述的方法,其特徵在於,所述根據打分排序結果生成所述摘要具體包括:獲取用戶的需求場景信息;根據所述需求場景信息和所述打分排序結果生成所述摘要。
19、如權利要求17所述的方法,其特徵在於,還包括:對多個候選篇章的信息進行聚合。
20、如權利要求1所述的方法,其特徵在於,還包括:所述聊天服務子系統接收用戶輸入的輸入信息;所述聊天服務子系統將所述輸入信息分發至聊天服務模組;所述聊天服務子系統接收多個聊天服務模組返回的候選回復,其中,所述候選回復具有對應的置信度;所述聊天服務子系統基於所述置信度對所述候選回復進行排序,並根據排序結果生成聊天信息,並向所述用戶提供所述聊天信息。
21、如權利要求20所述的方法,其特徵在於,在所述接收用戶輸入的輸入信息之後,還包括:對所述輸入信息進行糾錯和/或改寫。
22、如權利要求20所述的方法,其特徵在於,在所述接收用戶輸入的輸入信息之後,還包括:對所述輸入信息進行領域分析以獲取所述輸入信息對應的領域,其中,根據所述輸入信息對應的領域將所述輸入信息分發至具有相同或相近似領域的聊天服務模組。
23、如權利要求20所述的方法,其特徵在於,在所述接收用戶輸入的輸入信息之後,還包括:獲取與所述用戶聊天的上文信息;根據所述上文信息判斷所述輸入信息與所述上文信息的依賴關係是否大於預設關係閾值;以及如果大於所述預設關係閾值,則根據所述上文信息對所述輸入信息進行補全。
24、如權利要求23所述的方法,其特徵在於,還包括:根據所述上文信息獲取所述用戶當前的話題信息。
25、如權利要求20所述的方法,其特徵在於,所述聊天服務模組包括基於搜尋的聊天模組、富知識聊天模組、基於畫像的聊天模組和基於眾包的聊天模組中的一種或多種。
26、如權利要求25所述的方法,其特徵在於,還包括:所述基於搜尋的聊天模組對所述輸入信息進行切詞以生成多個聊天短句;所述基於搜尋的聊天模組根據所述多個聊天短句查詢聊天語料庫以生成多個聊天語料上句,以及所述多個聊天語料上句對應的多個聊天語料下句;所述基於搜尋的聊天模組對所述多個聊天語料上句進行過濾;所述基於搜尋的聊天模組對過濾之後的聊天語料上句對應的聊天語料下句進行分類;以及所述基於搜尋的聊天模組對分類之後的所述聊天語料下句進行重排序,並根據排序結果生成所述候選回復。
27、如權利要求26所述的方法,其特徵在於,所述基於搜尋的聊天模組對所述多個聊天語料上句進行過濾具體包括:計算所述輸入信息與所述多個聊天語料上句之間的相似度;如果所述相似度小於第一預設相似度閾值,則將對應的聊天語料上句過濾;以及如果所述相似度大於或等於所述第一預設相似度閾值,則將對應的聊天語料上句保留。
28、如權利要求26所述的方法,其特徵在於,所述對過濾之後的聊天語料上句對應的聊天語料下句進行分類具體包括:計算所述輸入信息與所述多個聊天語料下句之間的相似度;以及根據所述相似度對所述多個聊天語料下句進行分類。
29、如權利要求28所述的方法,其特徵在於,所述輸入信息與所述多個聊天語料下句之間的相似度包括:所述輸入信息與所述聊天語料下句之間字面的相似度;或者,所述輸入信息與所述聊天語料下句基於深度神經網路訓練得到的相似度;或者,所述輸入信息與所述聊天語料下句基於機器翻譯模型訓練得到的相似度。
30、如權利要求26所述的方法,其特徵在於,所述對分類之後的所述聊天語料下句進行重排序具體包括:根據所述用戶聊天的上文信息獲取所述用戶的聊天屬性;根據所述聊天屬性對所述分類之後的所述聊天語料下句進行重排序。
31、如權利要求25所述的方法,其特徵在於,還包括:所述富知識聊天模組根據所述輸入信息生成搜尋詞,並根據所述搜尋詞進行搜尋以生成多個搜尋結果;所述富知識聊天模組對所述多個搜尋結果進行句子抽取,以獲取候選句子集合;所述富知識聊天模組對所述候選句子集合中的句子進行改寫以生成所述候選回復。
32、如權利要求31所述的方法,其特徵在於,所述候選句子集合中的句子與所述搜尋詞的相似度大於第二預設相似度閾值。
33、如權利要求31所述的方法,其特徵在於,還包括:根據所述用戶的聊天屬性對所述候選句子集合中的句子進行重排序。
34、如權利要求25所述的方法,其特徵在於,還包括:所述基於畫像的聊天模組獲取所述用戶的聊天語境;所述基於畫像的聊天模組根據所述聊天語境判斷是否滿足收集條件;如果判斷滿足所述收集條件,則向所述用戶傳送問題;接收所述用戶根據所述問題的回答信息,並根據所述回答信息對用戶畫像模型進行更新。
35、如權利要求25所述的方法,其特徵在於,還包括:所述基於畫像的聊天模組獲取所述用戶的聊天內容;所述基於畫像的聊天模組根據所述聊天內容提取用戶畫像數據;所述基於畫像的聊天模組根據提取的所述用戶畫像數據對用戶畫像模型進行更新。
36、如權利要求25所述的方法,其特徵在於,還包括:所述基於眾包的聊天模組判斷所述輸入信息是否適合眾包完成;如果判斷適合眾包完成,則將所述輸入信息分發至對應的執行者;接收所述執行者的回覆信息,並對所述回覆信息進行質量判斷;如果滿足質量要求,則將所述回覆信息作為所述候選回復。
37、如權利要求20所述的方法,其特徵在於,還包括:判斷所述輸入信息是否屬於無實際內容的聊天信息;如果判斷是屬於無實際內容的聊天信息,則獲取當前話題;根據所述當前話題生成引導話題;以及根據所述引導話題生成所述候選回復。
38、如權利要求20所述的方法,其特徵在於,所述基於所述置信度對所述候選回復進行排序具體包括:獲取所述用戶的所述輸入信息的特徵;以及基於所述輸入信息的特徵和所述置信度對所述候選回復進行排序。
39、如權利要求1所述的方法,其特徵在於,還包括:所述引導和推薦服務子系統接收用戶輸入的互動信息,並根據所述互動信息確定當前話題;所述引導和推薦服務子系統基於話題圖譜獲得多個與所述當前話題相關的待選引導話題,其中,所述話題圖譜包括多個話題及所述話題之間的關聯關係;所述引導和推薦服務子系統獲取所述用戶的用戶畫像數據;以及所述引導和推薦服務子系統根據所述用戶畫像數據從所述多個與所述當前話題相關的待選引導話題中選擇引導話題,並向所述用戶反饋所述引導話題。
40、如權利要求39所述的方法,其特徵在於,在所述引導和推薦服務子系統基於話題圖譜獲得多個與所述當前話題相關的待選引導話題之前,還包括:建立所述話題圖譜。
41、如權利要求40所述的方法,其特徵在於,所述建立所述話題圖譜具體包括:獲取話題關聯數據;以及根據所述話題關聯數據建立所述話題圖譜。
42、如權利要求41所述的方法,其特徵在於,所述獲取話題關聯數據,具體包括:獲取網路文本數據;當所述網路文本數據為非結構化數據時,基於實體提取和句法分析獲取所述話題關聯數據;或者當所述網路文本數據為半結構化數據時,基於頁面結構分析、標籤提取、實體識別獲取所述話題關聯數據;或者當所述網路文本數據為結構化數據時,從知識圖譜中獲取所述話題關聯數據。
43、如權利要求41所述的方法,其特徵在於,所述獲取話題關聯數據,包括:獲取所述用戶的搜尋行為數據,並根據所述搜尋行為數據獲取對應的搜尋對象,以及根據所述搜尋對象生成所述話題關聯數據;或者獲取所述用戶的瀏覽行為數據,並根據所述瀏覽行為數據獲取對應的瀏覽對象,根據所述瀏覽對象生成所述話題關聯數據。
44、如權利要求41所述的方法,其特徵在於,所述根據所述話題關聯數據建立所述話題圖譜,具體包括:通過RandomWalk算法、關聯分析算法、協同過濾算法中的一種或多種,根據所述話題關聯數據建立所述話題圖譜。
45、如權利要求39所述的方法,其特徵在於,所述根據所述互動信息確定當前話題,具體包括:對所述互動信息進行需求識別以及相關性計算以確定所述當前話題。
46、如權利要求39所述的方法,其特徵在於,所述引導和推薦服務子系統根據所述用戶畫像數據從所述多個與所述當前話題相關的待選引導話題中選擇引導話題,並向所述用戶反饋所述引導話題,具體包括:根據所述用戶畫像數據和所述互動信息的上下文信息確定所述用戶的意圖信息;根據所述用戶的意圖信息從所述多個與所述當前話題相關的待選引導話題中選擇引導話題,並向所述用戶反饋所述引導話題。
47、如權利要求39所述的方法,其特徵在於,還包括:對所述互動信息進行解析,並獲取所述互動信息中的關鍵欄位,所述關鍵欄位包括時間信息、地點信息、提醒事件的一種或多種;根據所述關鍵欄位建立提醒信息;當所述時間信息達到預設時間時,向用戶傳送所述提醒信息。
48、如權利要求1所述的方法,其特徵在於,還包括:如果在網路資源中不存在滿足所述用戶需求的所述用戶返回結果,則記錄所述用戶的輸入信息;以預設周期監控所述網路資源中是否存在滿足所述用戶需求的所述用戶返回結果;當所述用戶返回結果存在時,將所述用戶返回結果提供至所述用戶。
49、如權利要求1所述的方法,其特徵在於,還包括:所述垂類服務模組獲取用戶輸入的查詢詞;所述垂類服務模組確定所述查詢詞屬於的垂類;所述垂類服務模組在所述查詢詞屬於的垂類中,與用戶進行至少一輪的互動,得到用戶需要的查詢結果,其中,每輪互動時,展示給用戶的信息包括:對應查詢詞的查詢結果,以及,引導信息。
50、根據權利要求49所述的方法,其特徵在於,所述查詢詞是自然語言表示的,所述在所述查詢詞屬於的垂類中,與用戶進行至少一輪的互動,得到用戶需要的查詢結果,包括:將所述查詢詞解析為所述查詢詞屬於的垂類的垂類知識體系能夠表示的結構化信息;根據所述結構化信息、所述垂類知識體系,以及,所述查詢詞屬於的垂類的垂類資源庫,獲取相關信息,所述相關信息包括:對應所述查詢詞的查詢結果,以及,引導信息;向用戶展示所述查詢結果和所述引導信息;在用戶根據所述引導信息再次輸入查詢詞後,重複上述根據查詢詞獲取相關信息的流程,直至得到用戶需要的查詢結果。
51、根據權利要求50所述的方法,其特徵在於,所述根據所述結構化信息、所述垂類知識體系,以及,所述查詢詞屬於的垂類的垂類資源庫,獲取相關信息,包括:根據所述結構化信息和用戶前一次的狀態信息,更新用戶的當前狀態信息;根據所述垂類知識體系和所述垂類資源庫,生成所述當前狀態信息對應的候選動作;根據預設模型在所述候選動作中選擇與所述當前狀態信息匹配程度大於設定值的預設個數的候選動作,將選擇的候選動作作為相關信息。
52、根據權利要求51所述的方法,其特徵在於,還包括:根據用戶的反饋更新預設模型的參數,以便在參數不同時選擇不同的候選動作。
53、根據權利要求51所述的方法,其特徵在於,還包括:根據用戶的偏好或者互動歷史,獲取用戶的初始化狀態信息。
54、根據權利要求51所述的方法,其特徵在於,所述候選動作包括:滿足用戶需求的動作,或者,進一步澄清用戶需求的動作,或者,為用戶需求提供橫向或縱向的引導信息,其中,用戶需求根據查詢詞確定,所述滿足用戶需求的動作,或者,進一步澄清用戶需求的動作在被選擇後作為查詢結果,為用戶需求提供橫向或縱向的引導信息在被選擇後作為引導信息。
55、根據權利要求50所述的方法,其特徵在於,還包括:獲取所述查詢詞屬於的垂類的結構化資源和非結構化資源,將所述結構化資源和所述非結構化資源組成所述垂類資源庫,其中,所述結構化資源是從多個對應的垂類網站抓取整合數據後得到的全亮數據資源,所述非結構化資源根據用戶查詢詞或網際網路文本挖掘得到的結構化資源的補充或擴展信息。
56、根據權利要求49-55任一項所述的方法,其特徵在於,所述獲取用戶輸入的查詢詞,包括:獲取用戶以文本、語音或圖像輸入的查詢詞。
57、根據權利要求56所述的方法,其特徵在於,所述確定所述查詢詞屬於的垂類,包括:基於機器學習方式,或者,基於模式解析方式,確定所述查詢詞屬於的垂類。
58、一種基於人工智慧的人機互動系統,其特徵在於,包括:第一接收子系統,用於接收用戶通過套用終端輸入的輸入信息;分發子系統,用於根據所述用戶的輸入信息獲取所述用戶的意圖信息,並根據所述意圖信息將所述輸入信息分發至至少一個互動服務子系統;第二接收子系統,用於接收所述至少一個互動服務子系統返回的返回結果;生成子系統,用於按照預設的決策策略根據所述返回結果生成用戶返回結果;以及提供子系統,用於將所述用戶返回結果提供至所述用戶;所述互動服務子系統包括需求滿足服務子系統、引導和推薦服務子系統和聊天服務子系統中的一種或多種;所述需求滿足服務子系統,具體包括:第三獲取模組,用於獲取用戶輸入的問題信息;第四獲取模組,用於根據所述問題信息獲取用戶的用戶需求信息;第一分發模組,用於根據所述用戶需求信息將所述問題信息分發至對應的至少一個問答服務模組;以及第二決策模組,用於接收所述至少一個問答服務模組返回的問答結果,並對所述問答結果進行決策以確定最終的問答結果;所述問答服務模組包括阿拉丁服務模組、垂類服務模組、深度問答服務模組和信息搜尋服務模組;所述深度問答服務模組,具體包括:第一接收子模組,用於接收所述問題信息;第一獲取子模組,用於根據所述問題信息獲取對應的問題類型;生成子模組,用於根據所述問題類型選擇對應的問答模式,並根據選擇的答案生成模式和所述問題信息生成對應的問答結果。
59、如權利要求58所述的系統,其特徵在於,所述提供子系統,具體用於:將所述用戶返回結果轉化為自然語言並播報給所述用戶。
60、如權利要求58所述的系統,其特徵在於,還包括:所述第一接收子系統,還用於接收用戶的定製任務信息;以及所述分發子系統,還用於根據所述定製任務信息將所述輸入信息分發至至少一個互動服務子系統。
61、如權利要求58所述的系統,其特徵在於,所述套用終端包括PC端、移動終端或智慧型機器人。
62、如權利要求58所述的系統,其特徵在於,所述系統還包括:傳送子系統,當所述用戶返回結果包括執行指令時,將所述執行指令傳送至對應的執行子系統;所述執行子系統執行所述執行指令。
63、如權利要求58所述的系統,其特徵在於,所述生成子系統,具體包括:第一獲取模組,用於獲取所述輸入信息的需求分析特徵;第二獲取模組,用於獲取所述互動服務子系統返回的返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵;第一決策模組,用於根據所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵對所述返回結果進行決策以確定所述用戶返回結果。
64、如權利要求63所述的系統,其特徵在於,所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵分別對應有各自的決策權重。
65、如權利要求64所述的系統,其特徵在於,所述生成子系統還包括:訓練模組,用於根據所述用戶的日誌基於增強學習模型對所述需求分析特徵、所述返回結果的置信度特徵、所述用戶的對話互動信息的上下文特徵以及所述用戶的個性化模型特徵的決策權重進行訓練。
66、如權利要求58所述的系統,其特徵在於,所述系統還包括:補全子系統,用於獲取與所述用戶互動的互動上文信息,並根據所述互動上文信息對所述輸入信息進行補全。
67、如權利要求58所述的系統,其特徵在於,當所述問題類型為實體類型時,所述生成子模組,具體包括:第一生成單元,用於根據所述問題信息生成實體類問題信息;擴展單元,用於基於搜尋引擎抓取的摘要和歷史展現日誌對所述實體類問題信息進行擴展以生成同族實體問題信息簇,其中,所述同族實體問題信息簇分別對應候選答案;抽取單元,用於從所述同族實體問題信息簇分別對應候選答案中抽取候選實體;第一計算單元,用於計算所述候選實體的置信度;以及第一反饋單元,用於將所述置信度大於預設定信度閾值的候選實體作為問答結果進行反饋。
68、如權利要求58所述的系統,其特徵在於,當所述問題類型為觀點類型時,所述生成子模組,具體包括:第一獲取單元,用於獲取所述問題信息對應的候選答案;第一切分單元,用於對所述候選答案進行切分以生成多個候選答案短句;第一聚合單元,用於對所述多個候選答案短句進行聚合以生成觀點聚合簇;判斷單元,用於判斷所述觀點聚合簇的觀點類型;選擇單元,用於根據所述觀點類型從所述觀點聚合簇中選擇出答案觀點,並生成所述答案觀點對應的摘要;評分反饋單元,用於對所述答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。
69、如權利要求68所述的系統,其特徵在於,所述第一聚合單元,具體用於:提取所述多個候選答案短句中的關鍵字,並計算每兩個所述關鍵字之間的向量夾角和/或語義相似度,以及對所述向量夾角小於預設角度或語義相似度大於預設閾值的所述候選答案進行聚合以生成觀點聚合簇。
70、如權利要求58所述的系統,其特徵在於,當所述問題類型為片段類型時,所述生成子模組,具體包括:第二獲取單元,用於獲取所述問題信息對應的候選答案;第二切分單元,用於對所述候選答案進行切分以生成多個候選答案短句;打分單元,用於對所述多個候選答案短句進行重要度打分以生成所述候選答案短句對應的短句重要度特徵;第二生成單元,用於根據所述短句重要度特徵生成答案摘要;第一排序單元,用於根據所述答案摘要的短句重要度特徵對答案質量進行打分,並根據打分結果對候選答案進行排序;第二反饋單元,用於將排序結果作為問答結果進行反饋。
71、如權利要求70所述的系統,其特徵在於,所述打分單元,具體用於:根據所述答案摘要的短句重要度特徵、答案權威性、問題信息的相關性和答案的豐富度對答案質量進行打分。
72、如權利要求70所述的系統,其特徵在於,所述第一排序單元,具體用於:獲取用戶的行為數據,並根據所述用戶的行為數據和所述打分結果對所述候選答案進行排序。
73、如權利要求58-72任一項所述的系統,其特徵在於,所述信息搜尋服務模組,具體包括:第二接收子模組,用於接收所述問題信息;第一搜尋子模組,用於根據所述問題信息進行搜尋以生成多個候選網頁;分析反饋子模組,用於對所述候選網頁進行篇章分析以生成對應的摘要,並將摘要作為問答結果進行反饋。
74、如權利要求73所述的系統,其特徵在於,分析反饋子模組,具體包括:分析單元,用於對候選網頁進行篇章分析以生成對應的候選篇章;第二排序單元,用於對所述候選篇章中的句子進行打分排序;以及第三生成單元,用於根據打分排序結果生成摘要。
75、如權利要求74所述的系統,其特徵在於,所述第三生成單元,具體用於:獲取用戶的需求場景信息,並根據所述需求場景信息和所述打分排序結果生成所述摘要。
76、如權利要求74所述的系統,其特徵在於,所述分析反饋子模組,還包括:第二聚合單元,用於對多個候選篇章的信息進行聚合。
77、如權利要求58所述的系統,其特徵在於,所述聊天服務子系統,具體包括:第一接收模組,用於接收用戶輸入的輸入信息;第二分發模組,用於將所述輸入信息分發至聊天服務模組;第二接收模組,用於接收多個聊天服務模組返回的候選回復,其中,所述候選回復具有對應的置信度;排序模組,用於基於所述置信度對所述候選回復進行排序,並根據排序結果生成聊天信息,並向所述用戶提供所述聊天信息。
78、如權利要求77所述的系統,其特徵在於,還包括:糾錯模組,用於在所述接收用戶輸入的輸入信息之後,對所述輸入信息進行糾錯和/或改寫。
79、如權利要求77所述的系統,其特徵在於,還包括:分析模組,用於在所述接收用戶輸入的輸入信息之後,對所述輸入信息進行領域分析以獲取所述輸入信息對應的領域;所述第二分發模組,用於根據所述輸入信息對應的領域將所述輸入信息分發至具有相同或相近似領域的聊天服務模組。
80、如權利要求77所述的系統,其特徵在於,還包括:第五獲取模組,用於在所述接收用戶輸入的輸入信息之後,獲取與所述用戶聊天的上文信息;第一判斷模組,用於根據所述上文信息判斷所述輸入信息與所述上文信息的依賴關係是否大於預設關係閾值;以及補全模組,用於當所述輸入信息與所述上文信息的依賴關係大於所述預設關係閾值時,根據所述上文信息對所述輸入信息進行補全。
81、如權利要求80所述的系統,其特徵在於,還包括:第六獲取模組,用於根據所述上文信息獲取所述用戶當前的話題信息。
82、如權利要求77所述的系統,其特徵在於,所述聊天服務模組包括基於搜尋的聊天模組、富知識聊天模組、基於畫像的聊天模組和基於眾包的聊天模組中的一種或多種。
83、如權利要求82所述的系統,其特徵在於,所述基於搜尋的聊天模組,具體包括:切詞子模組,用於對所述輸入信息進行切詞以生成多個聊天短句;查詢子模組,用於根據所述多個聊天短句查詢聊天語料庫以生成多個聊天語料上句,以及所述多個聊天語料上句對應的多個聊天語料下句;過濾子模組,用於對所述多個聊天語料上句進行過濾;分類子模組,用於對過濾之後的聊天語料上句對應的聊天語料下句進行分類;以及第一重排序子模組,用於對分類之後的所述聊天語料下句進行重排序,並根據排序結果生成所述候選回復。
84、如權利要求83所述的系統,其特徵在於,所述過濾子模組,具體包括:第二計算單元,用於計算所述輸入信息與所述多個聊天語料上句之間的相似度;過濾單元,用於如果所述相似度小於第一預設相似度閾值,則將對應的聊天語料上句過濾;以及保留單元,用於如果所述相似度大於或等於所述第一預設相似度閾值,則將對應的聊天語料上句保留。
85、如權利要求83所述的系統,其特徵在於,所述分類子模組,具體包括:第三計算單元,用於計算所述輸入信息與所述多個聊天語料下句之間的相似度;以及分類單元,用於根據所述相似度對所述多個聊天語料下句進行分類。
86、如權利要求85所述的系統,其特徵在於,所述輸入信息與所述多個聊天語料下句之間的相似度包括:所述輸入信息與所述聊天語料下句之間字面的相似度;或者,所述輸入信息與所述聊天語料下句基於深度神經網路訓練得到的相似度;或者,所述輸入信息與所述聊天語料下句基於機器翻譯模型訓練得到的相似度。
87、如權利要求83所述的系統,其特徵在於,所述第一重排序子模組,具體包括:第三獲取單元,用於根據所述用戶聊天的上文信息獲取所述用戶的聊天屬性;重排序單元,用於根據所述聊天屬性對所述分類之後的所述聊天語料下句進行重排序。
88、如權利要求82所述的系統,其特徵在於,所述富知識聊天模組,具體包括:第二搜尋子模組,用於根據所述輸入信息生成搜尋詞,並根據所述搜尋詞進行搜尋以生成多個搜尋結果;抽取子模組,用於對所述多個搜尋結果進行句子抽取,以獲取候選句子集合;改寫子模組,用於對所述候選句子集合中的句子進行改寫以生成所述候選回復。
89、如權利要求88所述的系統,其特徵在於,所述候選句子集合中的句子與所述搜尋詞的相似度大於第二預設相似度閾值。
90、如權利要求88所述的系統,其特徵在於,還包括:第二重排序子模組,用於根據所述用戶的聊天屬性對所述候選句子集合中的句子進行重排序。
91、如權利要求82所述的系統,其特徵在於,所述基於畫像的聊天模組,具體包括:第二獲取子模組,用於獲取所述用戶的聊天語境;第一判斷子模組,用於根據所述聊天語境判斷是否滿足收集條件;傳送子模組,用於如果判斷滿足所述收集條件,則向所述用戶傳送問題;第一更新子模組,用於接收所述用戶根據所述問題的回答信息,並根據所述回答信息對用戶畫像模型進行更新。
92、如權利要求82所述的系統,其特徵在於,所述基於畫像的聊天模組,具體包括:第三獲取子模組,用於獲取所述用戶的聊天內容;提取子模組,用於根據所述聊天內容提取用戶畫像數據;第二更新子模組,用於根據提取的所述用戶畫像數據對用戶畫像模型進行更新。
93、如權利要求82所述的系統,其特徵在於,所述基於眾包的聊天模組,具體用於:判斷所述輸入信息是否適合眾包完成,如果判斷適合眾包完成,則將所述輸入信息分發至對應的執行者,以及接收所述執行者的回覆信息,並對所述回覆信息進行質量判斷,如果滿足質量要求,則將所述回覆信息作為所述候選回復。
94、如權利要求77所述的系統,其特徵在於,所述聊天服務子系統,還包括:第二判斷模組,用於判斷所述輸入信息是否屬於無實際內容的聊天信息;第七獲取模組,用於如果判斷是屬於無實際內容的聊天信息,則獲取當前話題;第一生成模組,用於根據所述當前話題生成引導話題;以及第二生成模組,用於根據所述引導話題生成所述候選回復。
95、如權利要求77所述的系統,其特徵在於,所述排序模組,具體用於:獲取所述用戶的所述輸入信息的特徵,並基於所述輸入信息的特徵和所述置信度對所述候選回復進行排序。
96、如權利要求58所述的系統,其特徵在於,所述引導和推薦服務子系統,具體包括:確定模組,用於接收用戶輸入的互動信息,並根據所述互動信息確定當前話題;獲得模組,用於基於話題圖譜獲得多個與所述當前話題相關的待選引導話題,其中,所述話題圖譜包括多個話題及所述話題之間的關聯關係;第八獲取模組,用於獲取所述用戶的用戶畫像數據;以及反饋模組,用於根據所述用戶畫像數據從所述多個與所述當前話題相關的待選引導話題中選擇引導話題,並向所述用戶反饋所述引導話題。
97、如權利要求96所述的系統,其特徵在於,還包括:建立模組,用於在所述引導和推薦服務子系統基於話題圖譜獲得多個與所述當前話題相關的待選引導話題之前,建立所述話題圖譜。
98、如權利要求97所述的系統,其特徵在於,所述建立模組,具體包括:第四獲取子模組,用於獲取話題關聯數據;以及建立子模組,用於根據所述話題關聯數據建立所述話題圖譜。
99、如權利要求98所述的系統,其特徵在於,所述第四獲取子模組,具體用於:獲取網路文本數據;當所述網路文本數據為非結構化數據時,基於實體提取和句法分析獲取所述話題關聯數據;或者當所述網路文本數據為半結構化數據時,基於頁面結構分析、標籤提取、實體識別獲取所述話題關聯數據;或者當所述網路文本數據為結構化數據時,從知識圖譜中獲取所述話題關聯數據。
100、如權利要求98所述的系統,其特徵在於,所述第四獲取子模組,具體用於:獲取所述用戶的搜尋行為數據,並根據所述搜尋行為數據獲取對應的搜尋對象,以及根據所述搜尋對象生成所述話題關聯數據;或者獲取所述用戶的瀏覽行為數據,並根據所述瀏覽行為數據獲取對應的瀏覽對象,根據所述瀏覽對象生成所述話題關聯數據。
101、如權利要求98所述的系統,其特徵在於,所述建立子模組,具體用於:通過RandomWalk算法、關聯分析算法、協同過濾算法中的一種或多種,根據所述話題關聯數據建立所述話題圖譜。
102、如權利要求96所述的系統,其特徵在於,所述確定模組,具體用於:對所述互動信息進行需求識別以及相關性計算以確定所述當前話題。
103、如權利要求96所述的系統,其特徵在於,所述反饋模組,具體用於:根據所述用戶畫像數據和所述互動信息的上下文信息確定所述用戶的意圖信息,以及根據所述用戶的意圖信息從所述多個與所述當前話題相關的待選引導話題中選擇引導話題,並向所述用戶反饋所述引導話題。
104、如權利要求96所述的系統,其特徵在於,還包括:解析模組,用於對所述互動信息進行解析,並獲取所述互動信息中的關鍵欄位,所述關鍵欄位包括時間信息、地點信息、提醒事件的一種或多種;建立提醒模組,用於根據所述關鍵欄位建立提醒信息;提醒模組,用於當所述時間信息達到預設時間時,向用戶傳送所述提醒信息。
105、如權利要求58所述的系統,其特徵在於,還包括:記錄子系統,用於如果在網路資源中不存在滿足所述用戶需求的所述用戶返回結果,則記錄所述用戶的輸入信息;監控子系統,用於以預設周期監控所述網路資源中是否存在滿足所述用戶需求的所述用戶返回結果;提供子系統,還用於當所述用戶返回結果存在時,將所述用戶返回結果提供至所述用戶。
106、如權利要求58所述的系統,其特徵在於,所述垂類服務模組,具體包括:第五獲取子模組,用於獲取用戶輸入的查詢詞;確定子模組,用於確定所述查詢詞屬於的垂類;互動子模組,用於在所述查詢詞屬於的垂類中,與用戶進行至少一輪的互動,得到用戶需要的查詢結果,其中,每輪互動時,展示給用戶的信息包括:對應查詢詞的查詢結果,以及,引導信息。
107、根據權利要求106所述的系統,其特徵在於,所述查詢詞是自然語言表示的,所述互動子模組,具體包括:解析單元,用於將所述查詢詞解析為所述查詢詞屬於的垂類的垂類知識體系能夠表示的結構化信息;第四獲取單元,用於根據所述結構化信息、所述垂類知識體系,以及,所述查詢詞屬於的垂類的垂類資源庫,獲取相關信息,所述相關信息包括:對應所述查詢詞的查詢結果,以及,引導信息;展示單元,用於向用戶展示所述查詢結果和所述引導信息;第五獲取單元,用於在用戶根據所述引導信息再次輸入查詢詞後,重複上述根據查詢詞獲取相關信息的流程,直至得到用戶需要的查詢結果。
108、根據權利要求107所述的系統,其特徵在於,所述第四獲取單元,具體包括:更新子單元,用於根據所述結構化信息和用戶前一次的狀態信息,更新用戶的當前狀態信息;生成子單元,用於根據所述垂類知識體系和所述垂類資源庫,生成所述當前狀態信息對應的候選動作;匹配子單元,用於根據預設模型在所述候選動作中選擇與所述當前狀態信息匹配程度大於設定值的預設個數的候選動作,將選擇的候選動作作為相關信息。
109、根據權利要求108所述的系統,其特徵在於,還包括:更新參數單元,用於根據用戶的反饋更新預設模型的參數,以便在參數不同時選擇不同的候選動作。
110、根據權利要求108所述的系統,其特徵在於,還包括:獲取子單元,用於根據用戶的偏好或者互動歷史,獲取用戶的初始化狀態信息。
111、根據權利要求108所述的系統,其特徵在於,所述候選動作包括:滿足用戶需求的動作,或者,進一步澄清用戶需求的動作,或者,為用戶需求提供橫向或縱向的引導信息,其中,用戶需求根據查詢詞確定,所述滿足用戶需求的動作,或者,進一步澄清用戶需求的動作在被選擇後作為查詢結果,為用戶需求提供橫向或縱向的引導信息在被選擇後作為引導信息。
112、根據權利要求107所述的系統,其特徵在於,還包括:組成單元,用於獲取所述查詢詞屬於的垂類的結構化資源和非結構化資源,將所述結構化資源和所述非結構化資源組成所述垂類資源庫,其中,所述結構化資源是從多個對應的垂類網站抓取整合數據後得到的全亮數據資源,所述非結構化資源根據用戶查詢詞或網際網路文本挖掘得到的結構化資源的補充或擴展信息。
113、根據權利要求106-112任一項所述的系統,其特徵在於,所述第五獲取子模組,具體用於:獲取用戶以文本、語音或圖像輸入的查詢詞。
114、根據權利要求106-113任一項所述的系統,其特徵在於,所述確定子模組,具體用於:基於機器學習方式,或者,基於模式解析方式,確定所述查詢詞屬於的垂類。

實施方式

下面詳細描述《基於人工智慧的人機互動方法和系統》的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的模組或具有相同或類似功能的模組。下面通過參考附圖描述的實施例是示例性的,旨在用於解釋該發明,而不能理解為對該發明的限制。
圖1是根據該發明一個實施例的基於人工智慧的人機互動方法的流程圖。如圖1所示,基於人工智慧的人機互動方法可包括:
S1、接收用戶通過套用終端輸入的輸入信息。其中,套用終端可包括PC端、移動終端或智慧型機器人。輸入信息可以是文本信息、圖像信息或語音信息。
S2、根據用戶的輸入信息獲取用戶的意圖信息,並根據意圖信息將輸入信息分發至至少一個互動服務子系統。其中,互動服務子系統可包括需求滿足服務子系統、引導和推薦服務子系統和聊天服務子系統等。在該發明的一個實施例中,可根據用戶的輸入信息獲取用戶的意圖信息,然後根據意圖信息將輸入信息分發至上述的互動服務子系統。另外,還可接收用戶的定製任務信息,並根據定製任務信息將輸入信息分發至至少一個互動服務子系統。例如:有的用戶的任務只進行搜尋,則可只需定製需求滿足服務子系統;有的用戶的任務既需要搜尋,又需要進行聊天,則可定製需求滿足服務子系統和聊天服務子系統,以上均可根據用戶實際需求進行定製。
S3、接收至少一個互動服務子系統返回的返回結果。
S4、按照預設的決策策略根據返回結果生成用戶返回結果,並將用戶返回結果提供至用戶。
具體地,如圖2所示,按照預設的決策策略根據返回結果生成用戶返回結果可包括以下步驟:
S41、獲取輸入信息的需求分析特徵。
S42、獲取互動服務子系統返回的返回結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵。
S43、根據需求分析特徵、返回結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵對返回結果進行決策以確定用戶返回結果。
具體地,對返回結果進行決策以確定用戶返回結果主要基於以下幾個特徵:1、需求分析特徵,通過對用戶的問題信息進行需求分析,可選擇更符合用戶需求的問答服務模組提供的問答結果。2、問答結果置信度特徵,每個問答服務模組提供的問答結果均具有置信度,可選擇置信度高的問答結果。3、用戶的對話互動信息的上下文特徵,可選擇更符合上下文信息的問答結果。4、用戶的個性化模型特徵,可選擇更符合用戶個性化需求的問答結果。其中,需求分析特徵、問答結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵分別對應有各自的決策權重。基於以上特徵對問答結果進行決策,從而確定最終的問答結果。在確定最終的問答結果後,可反饋給用戶,從而滿足用戶的需求。其中,問答結果可通過語音播報的方式,亦可以通過螢幕顯示的方式反饋給用戶。採用語音播報的方式使得人機互動的過程更加簡便、自然。
另外,還可根據用戶的日誌基於增強學習模型對需求分析特徵、問答結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵的決策權重進行訓練,從而為用戶提供更符合用戶需求的問答結果。其中,需求分析特徵、返回結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵分別對應有各自的決策權重。在生成用戶返回結果之後,可將用戶返回結果轉化為自然語言並播報給用戶。當然,也可直接將用戶返回結果對應的文本展現給用戶。
在該發明的一個實施例中,如果用戶返回結果中包括有執行指令,則可將執行指令傳送至對應的執行子系統,並通過執行子系統進行執行。其中,執行指令可包括但不僅限於硬體動作指令、播放音樂指令以及朗讀故事指令等。舉例來說,硬體動作指令主要針對智慧型機器人,智慧型機器人可具有頭部、軀幹、四肢等硬體組成部件,因此可執行諸如“點點頭”、“笑一下”、“舉起手來”等操控智慧型機器人硬體組成部件的指令。播放音樂指令通常可包括開始播放、停止播放、上一首、下一首、大點聲、聲音小一點等。註:用戶對於特定類型或風格等音樂的搜尋(如“適合睡前聽的音樂”、“周杰倫好聽的歌”等)並不屬於播放音樂指令。朗讀故事指令主要針對的是面向兒童的套用,如智慧型機器人需要代替父母給兒童講故事。與播放音樂指令類似,對特定主題、人物、情節等的故事進行搜尋也不屬於朗讀故事指令。
此外,在接收用戶通過套用終端輸入的輸入信息之後,還可獲取與用戶互動的互動上文信息,然後可根據互動上文信息對輸入信息進行補全。具體地,在多輪互動過程中,用戶通常會基於對話上文省略輸入信息中的一部分內容,因此需要對輸入信息進行補全,從而澄清用戶的需求。例如:對話上文為“北京有什麼小吃?”,而輸入信息為“那特產呢?”,則需要對輸入信息進行補全,生成新的問題信息“北京有什麼特產?”。
在該發明的實施例中,如果在網路資源中不存在滿足用戶需求的用戶返回結果,則可記錄用戶的輸入信息,然後以預設周期監控網路資源中是否存在滿足用戶需求的用戶返回結果,並當用戶返回結果存在時,可將用戶返回結果提供至用戶。舉例來說,用戶搜尋一部剛上映的電影,但是網路資源中並沒有相應資源,則可記錄下該用戶這一需求,並按照一定周期搜尋網路資源中是否出現相應資源。當搜尋到相應資源後,可將該資源推送給用戶,即實現異步需求滿足。
如圖3所示,需求滿足服務子系統可執行以下步驟:
S31、獲取用戶輸入的問題信息。其中,問題信息可以是文字信息,也可以是語音信息。例如,用戶輸入的問題信息“北京有什麼小吃?”。
S32、根據問題信息獲取用戶的用戶需求信息。具體地,可對問題信息進行需求分析,從而獲取用戶的用戶需求信息。舉例來說,用戶需求信息可以為垂類需求、阿拉丁需求、深度問答需求、信息搜尋需求等。
S33、根據用戶需求信息將問題信息分發至對應的至少一個問答服務模組。其中,問答服務模組可包括阿拉丁服務模組、垂類服務模組、深度問答服務模組和信息搜尋服務模組。
在該發明的一個實施例中,當用戶需求信息為阿拉丁需求時,可將問題信息分發至阿拉丁服務模組;當用戶需求信息為垂類需求時,可將問題信息分發至垂類服務模組;當用戶需求信息為深度問答需求時,可將問題信息分發至深度問答服務模組;當用戶需求信息為信息搜尋需求時,可將問題分發至信息搜尋服務模組。
其中,阿拉丁服務是能夠為用戶需求提供精準滿足的一類服務的統稱,例如美元兌換人民幣、2015年春節放假等。舉例來說,用戶的問題信息為“劉德華的老婆是誰?”,則可對該問題信息進行分析,可分析出需求類型為“人物”,查詢主體為“劉德華”,查詢屬性為“老婆”,並可將查詢屬性進行歸一,將查詢屬性歸一為“妻子”。然後搜尋並獲得結果欄位為“朱麗倩”,再基於自然語言生成技術(Natural Language Generation)生成問答結果“劉德華的老婆是朱麗倩”。再例如:用戶的問題信息為“北京明天熱嗎?”,通過搜尋並獲得結果欄位為“35攝氏度”,可基於常識知識庫和預設的規則,生成問答結果“明天天氣很熱,最高溫度為35攝氏度,建議注意防暑降溫。”其中,常識知識庫可包括常識類知識,如溫度高於30攝氏度屬於天氣熱。
垂類服務是針對垂類需求進行多輪互動的服務,例如“訂機票”等。垂類服務主要通過對話控制技術(Dialogue Management)和對話策略技術(Dialogue Policy),對用戶的需求進行澄清,從而向用戶提供滿足用戶需求的問答結果。舉例來說,用戶的問題信息為“北京到上海的機票”,則可對該問題信息進行分析,然後向用戶反問“您的出發日期是哪天?”,用戶回答“明天”,然後繼續反問“您對航空公司是否有要求?”等,逐步澄清用戶的需求,並最終返回滿足用戶需求的問答結果。
S34、接收至少一個問答服務模組返回的問答結果,並對問答結果進行決策以確定最終的問答結果。其中,對問答結果進行決策以確定最終的問答結果的實現方法與步驟S43中對返回結果進行決策以確定用戶返回結果的實現方法運用的技術手段一致。
具體地,如圖4所示,垂類服務模組可執行以下步驟:
S331,獲取用戶輸入的查詢詞。在該發明的一個實施例中,用戶可通過多種方式輸入查詢詞,例如,用戶可以以文本、語音或圖像輸入查詢詞。在用戶通過語音或者圖像輸入時,可將輸入的語音或者圖像轉換為用戶方便理解的自然語言的查詢詞,並在互動界面上顯示對應的文本。例如,在用戶通過語音方式輸入查詢詞後,可基於語言模型將用戶輸入的語音轉換為對應的文本,並以自然語言的形式在互動界面上顯示用戶輸入的查詢詞。
S332,確定查詢詞屬於的垂類。具體地,在獲得用戶輸入的查詢詞後,需要確定查詢詞屬於的垂類,以方便後續在查詢詞屬於的垂類下,與用戶進行互動,或者獲得查詢詞的相關信息。截至2015年9月7日,可通過多種方式確定查詢詞所屬的垂類,用戶可根據實際需求進行選擇,舉例說明如下:
(1)基於機器學習方式確定查詢詞屬於的垂類。
具體地,首先從搜尋引擎日誌(包含語音搜尋)中挖掘和標註與垂類相關的查詢(query),構建垂類相關的訓練數據集合,然後對訓練數據提取特徵,訓練機器學習分類器(例如最大熵模型、支持向量機)根據提取到的特徵對垂類需求查詢進行分類,以確定查詢詞語與垂類的對應關係,並保存查詢詞語與垂類的對應關係。
註:在分類的過程中,對於多個垂類,可以採用所有類別統一模型多分類,也可以採用每個垂類單獨模型二分類,最後統一決策。具體而言,在獲得查詢詞後,可通過查詢詞與垂類的對應關係確定查詢詞對應的垂類。例如,在接收到用戶輸入的查詢詞為“天蠶土豆的小說”後,由於查詢詞中包含作者名,小說等詞,通過機器學習方式可確定該查詢詞對應的垂類為小說垂類。
(2)基於模式解析方式確定查詢詞屬於的垂類。
為了可以基於模式解析方式確定查詢詞屬於的垂類,在確定查詢詞屬於的垂類之前,針對每類垂類(例如小說垂類,美食垂類、地點垂類、餐館垂類等),可構建關鍵字列表,並保存垂類與關鍵字之間的對應關係。在接收到用戶輸入的查詢詞後,可基於分詞、命名實體識別等技術,對查詢中的實體和關鍵字進行解析,並用解析結果匹配垂直類別的模式集合,如果匹配成功,則發到對應的垂直類別。
以找餐館垂類為例:假定用戶當前輸入的查詢詞為“三里屯附近安靜的餐廳”,首先對這個query做分詞、命名實體識別等基礎詞法分析,通過分析可確定該query對應的模式為:【地點】_【風格】_【餐廳】。每個類別單獨挖掘模式集合。也就是說,對於待分發的query,首先,通過分詞、命名實體識別等基礎詞法分析方式對query進行分析,然後將分析結果與垂直類別的模式集合進行匹配,如果匹配成功,則分發到對應的垂直類別。
S333,在查詢詞屬於的垂類中,與用戶進行至少一輪的互動,得到用戶需要的查詢結果,其中,每輪互動時,展示給用戶的信息包括:對應查詢詞的查詢結果,以及,引導信息。在該發明的一個實施例中,在查詢詞屬於的垂類中,與用戶進行至少一輪的互動得到用戶需要的查詢結果的具體過程,如圖5所示,可以包括:
S3331,將查詢詞解析為查詢詞屬於的垂類的垂類知識體系能夠表示的結構化信息。其中,每種垂類的垂類知識體系是預先建立的,垂類知識體系是基於垂直類別結構化網頁提供的信息和用戶需求表示體系建立起來的。其中,用戶需求表示體系是用戶需求的語義表示體系,具體地,可從用戶需求表示體系中挖掘出語義和結構知識。
註:用戶需求是根據查詢詞確定的。也就是說,用戶需求表示體系中包含大量與用戶需求對應的查詢詞,通過對查詢詞進行分析,可從中獲得查詢詞的語義和結構知識。每種垂類的垂類知識體系的結構形式不同,下面舉例說明一下垂類知識體系的結構形式。
例如,餐館垂類的垂類知識體系的結構形式如表1所示。
表1 餐館垂類的垂類知識體系的結構形式
位置
菜系
口味
環境
價格
推薦菜
適合人群
特點
上地
五道口
三里屯
……
勁松
川菜
火鍋
北京菜
……
阿拉伯菜
高檔
安靜
溫馨
清新
熱鬧
0-50
50-100
100-200
200以上
宮爆雞丁
魚香肉絲
東坡肘子
……
鹿肉
家庭聚餐
情侶約會
朋友聚會
商務宴請
中式園林
有歌舞
藍色壁紙
……
通過表1可以看出,餐館垂類的垂類知識體系中包含各餐館相關的位置、菜系、口味、環境等多個維度信息,以及各維度可能的取值。
S3332,根據結構化信息、垂類知識體系,以及,查詢詞屬於的垂類的垂類資源庫,獲取相關信息。其中,相關信息可以包括但不限於對應查詢詞的查詢結果和引導信息。
在該發明的一個實施例中,為了可以獲得查詢詞屬於的垂類的垂類資源,步驟S3332之前,還可以獲取查詢詞屬於的垂類的結構化資源和非結構化資源,並將結構化資源和非結構化資源組成垂類資源庫。其中,結構化資源是從多個對應的垂類網站抓取整合數據後得到的全量數據資源,非結構化資源根據用戶查詢詞或網際網路文本挖掘得到的結構化資源的補充或擴展信息。
下面以小說為例說明根據小說垂類的結構化資源和非結構化姿態組成小說垂類的垂類資源的過程。
通常垂直類別的結構化資源呈現複雜的體系結構,在組成小說垂類的垂類資源的過程中,可先獲取小說垂類的結構化資源,具體地,可通過抓取起點中文網、縱橫中文網、晉江、紅袖、17K小說網、小說閱讀網等主流中文小說網站上小說的信息建立全量數據資源。
然後,對於小說垂類的非結構化資源,可獲取小說名、作者、類別、標籤詞、資源滿足連結、小說簡介、小說周邊和百科信息等資源,並對所獲得的上述資源進行整合。最後可將整合後的資源和上述全量數據資源保存至垂類資源庫,以完成小說垂類的垂類資源的入庫。其中,針對其他垂類,獲取其對應的垂類資源的過程與獲得小說垂類的垂類資源的過程相同。
在該發明的一個實施例中,獲取對應查詢詞的相關信息的過程,如圖6所示,可以包括:
S33321,根據結構化信息和用戶前一次的狀態信息,更新用戶的當前狀態信息。根據垂類場景中的常見對話流程,實現對話系統的狀態空間構建和互動策略初始化。具體地,在用戶第一次輸入查詢次後,可根據用戶的偏好或者互動歷史獲取用戶的初始化狀態信息。
S33322,根據垂類知識體系和垂類資源庫,生成當前狀態信息對應的候選動作。其中,上述候選動作可以包括:滿足用戶需求的動作,或者,進一步澄清用戶需求的動作,或者,為用戶需求提供橫向或縱向的引導信息。其中,用戶需求根據查詢詞確定。
S33323,根據預設模型在候選動作中選擇與當前狀態信息匹配程度較高的預設個數的候選動作,將選擇的候選動作作為相關信息。
具體地,在當前狀態信息對應的候選動作後,可基於預設模型例如P O M D P(partially observable Markov decision processes,部分可見馬爾科夫決策過程)模型從多個候選動作中選擇與當前狀態信息匹配程度較高的預設個數的候選動作,並將選擇的候選動作作為查詢詞的查詢結果和引導信息返回給用戶,用戶所使用的具有對話功能的應用程式的當前界面中顯示查詢詞的查詢結果和引導信息。其中,滿足用戶需求的動作,或者,進一步澄清用戶需求的動作在被選擇後作為查詢結果,為用戶需求提供橫向或縱向的引導信息在被選擇後作為引導信息。其中,預設個數是預先設定的,例如,預設個數為5,假定根據垂類知識體系和垂類資源庫,生成當前狀態信息的候選動作為10,此時,可通過POMDP模型選擇出與當前狀態信息匹配程度較高的5個候選動作,並將選擇的候選動作作為相關信息返回給用戶。
S3333,向用戶展示查詢結果和引導信息。
S3334,在用戶根據引導信息再次輸入查詢詞後,重複上述根據查詢詞獲取相關信息的流程,直至得到用戶需要的查詢結果。
在該發明的一個實施例中,還可以根據用戶的反饋更新預設模型的參數,以便在參數不同時選擇不同的候選動作。也就是說,在用戶再次輸入查詢詞後,可根據用戶再次輸入的查詢詞調整預設模型的參數,以使預設模型根據調整後的參數為用戶選擇不同的候選動作。即根據當前狀態信息提供引導信息和滿足信息,不同狀態信息對應的引導信息和滿足信息不同,系統會根據當前狀態信息和用戶需求提供最優的滿足信息和引導信息,以引導用戶查詢垂類信息。
例如,當前用戶輸入的查詢詞為“西餐廳”,可確定該查詢詞對應的垂類為美食垂類,同時通過查詢詞可確定當前用戶的用戶需求是找一家西餐廳吃飯,由於時根據查詢詞不能確定用戶需要什麼類型的西餐廳,此時,根據垂類知識體系和垂類資源庫可多種候選動作,並通過POMDP模型選擇出與當前狀態信息匹配程度較高的13個候選動作,並將選擇的13個候選動作為查詢的相關信息返回給用戶。其中,當前用戶的當前界面中顯示的查詢結果如圖7所示,根據查詢詞不能確定用戶需要什麼類型的西餐廳,此時,可引導用戶提供更加詳細的第一引導信息,並提供與第一引導信息相對應的可能的回答,即第二引導信息,以方便用戶選擇或者輸入。其中,用戶還可通過點擊下一條指示按鍵查看與第一指導信息相對應的其他回答。在用戶點擊“請客戶吃飯後”,可根據用戶當前輸入的查詢詞確定符合用戶需求的一家餐館,並獲得與當前查詢詞的查詢結果和引導信息,其中,包含當前查詢詞的相關信息的界面,如圖8所示,此時,用戶可根據引導信息,進步一提問更多關於餐館的問題,如是否有wifi,是否方便停車等問題。
再例如,如果當前用戶輸入的查詢詞為“天蠶土豆的小說”,在接收到用戶的查詢詞後,通過語義分析可確定查詢詞中包含小說作者的名稱,根據查詢詞可確定查詢詞對應的垂類為小說垂類,同時通過查詢詞可確定用戶是想要根據作者名查詢圖書,可根據作者名獲得對應的候選動作,並在用戶所使用的應用程式中顯示查詢詞對應的相關信息,包含查詢詞的相關信息的界面形式如圖9所示,此時,用戶可根據需求點擊對應的書名。另外,用戶還以通過點擊第一按鍵,進行賬號登錄,或者清空訊息記錄。
再例如,如果當前用戶輸入的查詢詞為“好吃的韓國烤肉”,在接收到用戶輸入的查詢詞後,可將查詢詞對應的垂類為餐館美食垂類,具體而言,可將查詢詞解析為垂類知識體系能夠表示的結構化信息,並根據結構化信息、垂類知識體系和查詢詞屬於的垂類的垂類資源庫獲取查詢詞對應的查詢結果和引導信息,並將所獲得的查詢詞的查詢結果和引導信息返回給用戶,其中,包含查詢詞的相關信息的用戶界面,如圖10所示,此時,用戶可根據引導信息另選一個,也可以根據需求直接確定這家店。另外,用戶還可通過點擊下一條提示按鍵查看其他引導信息。
綜上可知,該實施例的基於人工智慧的信息查詢方法具有以下有益效果:(1)與通過搜尋引擎查找相比,在查詢過程中,該實施例的信息查詢方式不需要用戶對垂直類別有較深的了解,通過多輪互動的方式,引導用戶準確描述需求,並根據需求為用戶提供對應的查詢結果和引導信息。(2)對比垂類網站瀏覽方式,該實施例的信息查詢方式,不需要用戶瀏覽大量的網頁,且無需人工過濾無用的信息,該查詢方式智慧型過濾無用的信息,僅為用戶提供與查詢詞的相關信息。(3)對比相關的對話系統,該實施例的信息查詢方式,針對垂直類別資源結構的複雜性做特定處理,產生基於垂類實體結構的狀態空間,可以對垂類內的深層次問題進行滿足,並通過引導信息提示用戶再次輸入查詢詞,以進行下一輪的查詢,也就是說,該實施的信息查詢方式通過顯示引導信息可有效引導用戶提供正確的問題。
深度問答服務為針對用戶輸入的問題信息,基於深入的語義分析和知識挖掘技術,從而為用戶提供精準的問答結果的服務。當用戶需求信息為深度問答需求時,深度問答服務模組可接收問題信息,並根據問題信息獲取對應的問題類型,然後根據問題類型選擇對應的問答模式,以及根據選擇的答案生成模式和問題信息生成對應的問答結果。其中,問題類型可包括實體類型、觀點類型和片段類型。
更具體地,當問題類型為實體類型時,可根據問題信息生成實體類問題信息,並基於搜尋引擎抓取的摘要和歷史展現日誌對實體類問題信息進行擴展以生成同族實體問題信息簇。其中,同族實體問題信息簇分別對應候選答案。然後從同族實體問題信息簇分別對應候選答案中抽取候選實體,再計算候選實體的置信度,以及將置信度大於預設定信度閾值的候選實體作為問答結果進行反饋。舉例來說,問題信息為“劉德華老婆是誰?”,候選答案為“其實早在九二年時就有報導,劉德華和朱麗倩已經在加拿大秘密註冊結婚…”,其中,候選實體為“劉德華”、“朱麗倩”、“加拿大”。然後基於實體知識庫和問答語義匹配模型計算各候選實體的置信度,可計算出候選實體“朱麗倩”的置信度大於預設定信度閾值,則可確定“朱麗倩”為問答結果。另外,還可將候選答案中首次出現“朱麗倩”的分句作為答案摘要。
當問題類型為觀點類型時,可獲取問題信息對應的候選答案,並對候選答案進行切分以生成多個候選答案短句,然後對多個候選答案短句進行聚合以生成觀點聚合簇。具體地,可根據短句中辭彙的IDF(反文檔頻率)得分提取候選答案短句中的關鍵字,並對包含否定詞的關鍵字進行泛化並生成否定標籤,然後基於否定標籤將關鍵字用向量進行表示,計算每兩個關鍵字之間的向量夾角和/或語義相似度,然後對向量夾角小於預設角度或語義相似度大於預設閾值的候選答案進行聚合以生成觀點聚合簇。
在此之後,可判斷觀點聚合簇的觀點類型。其中,觀點可包括是非類、評價類、建議類等。具體地,可通過預先設定的規則或者基於統計模型確定觀點聚合簇的觀點類型。然後根據觀點類型從對應的觀點聚合簇中選擇出答案觀點。其中,選擇答案觀點的規則可包括但不僅限於選取信息覆蓋最全面的答案觀點、選取IDF*log(IDF)值最低的答案觀點和選取在候選答案對應的文章中出現次數最多的答案觀點。其中,IDF為反文檔頻率。在此之後,可生成答案觀點對應的摘要,然後可對答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。舉例來說,問題信息為“懷孕注意事項”,其中一個候選答案為“懷孕時應謹守醫、多、戰原則,亦即定期看醫師,多臥床休息,戰勝自己的不良習慣。”,可將該候選答案切分為“懷孕時應謹守醫、多、戰原則”、“亦即定期看醫師”、“多臥床休息”、“戰勝自己的不良習慣”四個候選答案短句。然後可將候選答案短句中重複的內容或者近似的內容進行聚合生成觀點聚合簇,並選出答案觀點。之後,可根據信息豐富度、論據充分度、信息冗餘度等對答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。此外,在選出答案觀點後,可獲取其在來源文章中所在的句子,然後按照預定長度截取句子,從而生成該答案觀點對應的摘要。之後可根據內容豐富度、答案權威性對摘要進行排序。
當問題類型為片段類型時,可獲取問題信息對應的候選答案,並對候選答案進行切分以生成多個候選答案短句,然後對多個候選答案短句進行重要度打分以生成候選答案短句對應的短句重要度特徵,並根據短句重要度特徵生成答案摘要,然後可根據答案摘要的短句重要度特徵、答案權威性、問題信息的相關性和答案的豐富度對答案質量進行打分。其中,短句重要度特徵可包括聚合特徵、相關度特徵、類型特徵和問題答案匹配度特徵。其中,聚合特徵用於衡量短句的重複度,例如:詞向量質心特徵、NGram(計算出現機率)特徵、Lexrank(多文本自動摘要)特徵等。類型特徵為問題的類型特徵,如WHAT(什麼)類型、WHY(為什麼)類型、HOW(如何)類型等。答案權威性為答案來源的網站的權威度。在此之後,可獲取用戶的行為數據,然後根據用戶的行為數據和打分結果對候選答案進行排序,最終將排序結果作為問答結果進行反饋。其中,用戶的行為數據是可包括用戶對問答結果的點擊行為、在問答結果上停留的時間、通過當前的問答結果跳轉至其他問答結果等用戶的歷史行為信息。
當用戶需求信息為信息搜尋需求時,信息搜尋服務模組可接收問題信息,並根據問題信息進行搜尋以生成多個候選網頁,然後對候選網頁進行篇章分析以生成對應的候選篇章。具體地,可對候選網頁進行篇章內容抽取、篇章主題分割和篇章關係分析生成對應的候選篇章。其中,篇章內容抽取主要為識別候選網頁的正文部分,刪除與用戶需求信息無關的內容。篇章主題分割為對篇章的主題結構進行分析,可將篇章劃分為多個子主題。篇章關係分析為分析篇章中多個子主題之間的關係,例如並列關係等。在生成候選篇章之後,可對候選篇章中的句子進行打分排序。其中,打分排序主要基於句子在候選篇章中的重要度以及句子與用戶需求信息之間的相關度。在此之後,可獲取用戶的需求場景信息,並根據需求場景信息和打分排序結果生成摘要,最終將摘要作為問答結果進行反饋。其中場景信息可包括移動終端場景、電腦場景。當場景信息為移動終端場景時,則可對句子進行壓縮簡寫,使生成的摘要儘量簡明扼要;當場景信息為電腦場景時,可對句子進行拼接融合,使得生成的摘要詳細清楚。當然,生成候選篇章時,由於候選篇章中的內容均與用戶需求信息具有相關性,則可能會有重複或互補的內容,則需要對多個候選篇章的信息進行聚合。
如圖11所示,聊天服務子系統可執行以下步驟:
S51、接收用戶輸入的輸入信息。其中,輸入信息可以是語音信息,也可以是文本信息。在接收用戶輸入的輸入信息之後,可對輸入信息進行糾錯和/或改寫,用於糾正輸入信息中的錯別字,改寫不規則的口語化表達等。另外,還可獲取與用戶聊天的上文信息,然後根據上文信息判斷輸入信息與上文信息的依賴關係是否大於預設關係閾值。如果大於預設關係閾值,則可根據上文信息對輸入信息進行補全,從而保證人機聊天的流暢度。具體地,對輸入信息進行補全可包括指代消解。舉例來說,輸入信息為“他結婚了么?”,則可根據上文信息“劉德華”將輸入信息中的“他”替代為“劉德華”。對輸入信息進行補全還可包括省略補全。舉例來說,上文信息“劉德華老婆叫朱麗倩。”,輸入信息為“我不認識。”,則可將輸入信息補全為“我不認識朱麗倩。”。此外,還可根據上文信息獲取用戶當前的話題信息,以便後續聊天服務模組對聊天話題進行引導。
S52、將輸入信息分發至聊天服務模組。具體地,可對輸入信息進行領域分析以獲取輸入信息對應的領域。然後,可根據輸入信息對應的領域將輸入信息分發至具有相同或相近似領域的聊天服務模組。其中,聊天服務模組可包括基於搜尋的聊天模組、富知識聊天模組、基於畫像的聊天模組和基於眾包的聊天模組中的一種或多種。具體地,基於搜尋的聊天模組可對輸入信息進行切詞以生成多個聊天短句,然後可根據多個聊天短句查詢聊天語料庫從而生成多個聊天語料上句和多個聊天語料上句對應的多個聊天語料下句。其中,聊天語料庫為預先建立,語聊來源可包括但不限於貼吧等論壇數據中的“發帖-回帖”、微博中的“博文-回復”、問答社區中的“問題-答案”等。
在此之後,可對多個聊天語料上句進行過濾。具體地,可計算輸入信息與多個聊天語料上句之間的相似度。如果相似度小於第一預設相似度閾值,則可將對應的聊天語料上句過濾;如果相似度大於或等於第一預設相似度閾值,則可將對應的聊天語料上句保留。
在對聊天語料上句進行過濾之後,可對過濾之後的聊天語料上句對應的聊天語料下句進行分類。具體地,計算輸入信息與多個聊天語料下句之間的相似度,並根據相似度基於GBDT(梯度升壓決策樹,Gradient Boost Decision Tree)、SVM(支持向量機,Support Vector Machine)等機器學習模型對多個聊天語料下句進行分類。其中,輸入信息與多個聊天語料下句之間的相似度可以是輸入信息與聊天語料下句之間字面的相似度,也可以是輸入信息與聊天語料下句基於深度神經網路訓練得到的相似度,也可以是輸入信息與聊天語料下句基於機器翻譯模型訓練得到的相似度。應當理解的是,該實施例中輸入信息與多個聊天語料下句之間的相似度以及GBDT、SVM等機器學習模型為公知技術。
然後基於搜尋的聊天模組可對分類之後的聊天語料下句進行重排序,並根據排序結果生成候選回復。具體地,可根據用戶聊天的上文信息獲取用戶的聊天屬性,再根據聊天屬性對分類之後的聊天語料下句基於學習排序模型(Learning-To-Rank)進行重排序。其中,聊天屬性可包括聊天的場合如時間地點等、聊天的趣味性、聊天的風格等。當然,聊天屬性不僅限於從用戶聊天的上文信息中獲取,也可以根據用戶長期的歷史聊天記錄獲取。應當理解的是,該實施例中學習排序模型為公知技術。
富知識聊天模組可根據輸入信息生成搜尋詞,並根據搜尋詞進行搜尋以生成多個搜尋結果,然後對多個搜尋結果進行句子抽取,以獲取與搜尋詞的相似度大於第二預設相似度閾值的句子的候選句子集合。在此之後,可對候選句子集合中的句子進行改寫以生成候選回復。此外,還可根據用戶的聊天屬性對候選句子集合中的句子進行重排序。舉例來說,輸入信息為“希望有機會能到富士山旅遊”,可對輸入信息進行解析並生成對應的搜尋詞“富士山、旅遊”,然後根據搜尋詞獲得多個搜尋結果,並抽取與搜尋詞相似度高的句子。其中,有的句子可能包括如“記者了解到”等明顯節選自網頁文本,因此需要對這些句子進行改寫,使其更加流暢,更像自然語言聊天的句子,最終生成的候選回復為“富士山由於天氣原因,一年中只有規定的夏季的一段時間可以登山”,相對於傳統的回覆“我也想去富士山,一起吧。”,具有一定的知識性,且具有一定時效性,可使用戶能在聊天過程中獲取有用的知識。
為了更好地實現擬人化,以及為用戶提供個性化服務,人機聊天系統可設定自身的屬性、狀態、興趣等,即系統畫像模型。還可設定用戶的屬性、狀態、興趣等,即用戶畫像模型。當然,在面對不同的用戶時,使用的系統畫像模型可以是同一個,也可以針對每個用戶均可設定與之對應的系統畫像模型。系統畫像模型和用戶畫像模型均基於畫像知識圖譜。畫像知識圖譜是一個層次化的知識體系。舉例來說,“家庭成員”節點可包括“兄弟姐妹”和“父母”兩個子節點,“父母”子節點包括“父親”和“母親”兩個子節點。每個節點均對應有多個輸入信息模板簇,例如“你父親是誰”、“誰是你父親”、“你的父親叫什麼”屬於同一個輸入信息模板簇。每個輸入信息模板簇對應一個或多個候選回復。輸入信息模板簇和候選回復可包含變數,例如興趣、愛好、嗜好對應同一屬性“INTEREST”,而“INTEREST”的屬性值可包括爬山、音樂、讀書、運動等。
具體地,基於畫像的聊天模組可獲取用戶的聊天語境,並根據聊天語境判斷是否滿足收集條件。如果判斷滿足收集條件,則可向用戶傳送問題。在此之後,可接收用戶根據問題的回答信息,並根據回答信息對用戶畫像模型進行更新。例如:在與用戶聊電影相關的話題時,可向用戶傳送問題“你喜歡什麼電影?”或者用戶問人機聊天系統“你喜歡吃什麼?”,人機聊天系統可反問用戶“你喜歡吃什麼?”,在用戶回答後,可基於用戶的回答信息對用戶畫像模型進行更新,更加符合用戶個性化的需求。
此外,基於畫像的聊天模組還可獲取用戶的聊天內容,並根據聊天內容提取用戶畫像數據,然後根據提取的用戶畫像數據對用戶畫像模型進行更新。例如:用戶在聊天過程中說道“我沒事的時候喜歡爬爬山、釣釣魚。”,可提取用戶畫像數據“愛好爬山、愛好釣魚”,從而對用戶畫像模型進行更新。同時,可基於用戶畫像數據抽取合適的答案,向用戶返回合適的回答信息。
眾包(crowdsourcing)是一種將特定任務外包給網際網路中非特定用戶的方法,對於人機聊天中,機器難以回答的問題,可分發給執行者線上地實時地進行人工回復,從而滿足用戶的實際需求。
具體地,基於眾包的聊天模組可判斷輸入信息是否適合眾包完成,例如用戶情緒低落需要安慰等,則適合眾包完成。例如用戶的輸入信息中包含有個人身份信息、密碼、電話等隱私信息,則不適合眾包完成。
如果判斷適合眾包完成,則可將輸入信息分發至對應的執行者。當然,同時也可將上文信息一同傳送給執行者,執行者可根據上文信息和輸入信息進行回復。然後基於眾包的聊天模組可接收執行者的回覆信息,並對回覆信息進行質量判斷。如果滿足質量要求,則將回覆信息作為候選回復。例如:回覆信息中如果包含低俗、反動、色情內容,則質量不過關。或者執行者回復的時間超過了預定時長,則該執行者的回覆信息將不被採用,同時可將該回覆信息保存至聊天語料庫中。
在此之外,還可判斷輸入信息是否屬於無實際內容的聊天信息,如“呵呵”、“hoho”等。如果判斷是屬於無實際內容的聊天信息,則可獲取當前話題,即基於話題模型(Topic Model)根據歷史聊天記錄計算出當前話題。在獲取當前話題之後,可基於話題聊天圖譜根據當前話題生成引導話題。其中,話題聊天圖譜是一個以話題為節點的有向圖。例如,如圖2所示,節點“休閒”可指向節點“看電影”和節點“聽歌”,則說明可從話題“休閒”引導至話題“看電影”或者話題“聽歌”。話題“看電影”和話題“聽歌”均具有一定的引導機率,可根據引導機率實現話題的引導,從而保證引導話題的多樣性。
然後,可根據引導話題生成候選回復。具體地,可基於自然語言生成模型(Natural Language Generation),生成候選回復的模板,將引導話題填充至該模板中生成候選回復;也可以選取包含引導話題的句子作為候選回復,從而實現對用戶進行主動地聊天話題引導。
S53、接收多個聊天服務模組返回的候選回復。其中,候選回復具有對應的置信度。
S54、基於置信度對待選回復進行排序,並根據排序結果生成聊天信息,並向用戶提供聊天信息。具體地,可獲取用戶的輸入信息的特徵,並基於輸入信息的特徵和置信度對待選回復進行排序。其中,輸入信息的特徵可包括分類特徵、字面特徵、話題特徵等。置信度越高,則待選回復質量越好,可按照置信度從高到低的順序對待選回復進行排序,最終向用戶提供符合用戶需求的聊天信息。
另外,還可通過增強學習模型(Reinforcement Learning)根據用戶的反饋信息進行更新,從而能夠為用戶提供更滿意的聊天信息。例如:在回復用戶的聊天信息中添加評論按鈕如“贊”或“踩”以收集用戶的反饋信息;或者基於情感分析技術,對用戶在聊天中的輸入信息進行分析,從而獲得用戶的評價,例如:“你真智慧型”等;或者通過記錄與用戶聊天的互動次數,判斷用戶的滿意度。
如圖12所示,引導和推薦服務子系統可執行以下步驟:
S61、接收用戶輸入的互動信息,並根據互動信息確定當前話題。具體地,可先接收用戶輸入的互動信息例如:“盜夢空間好看嗎?”,然後對該互動信息進行需求識別以及相關性計算,從而確定當前話題為“盜夢空間評價”。
S62、基於話題圖譜獲得多個與當前話題相關的待選引導話題。其中,話題圖譜可包括多個話題及話題之間的關聯關係。具體地,可基於預先建立的話題圖譜獲取多個與當前話題相關的待選引導話題。例如:當前話題為“盜夢空間評價”,則可根據話題圖譜獲取多個與“盜夢空間評價”相關的引導話題如“諾蘭導演的電影”、“萊昂納多主演的電影”等,及它們與“盜夢空間評價”之間的關聯關係。
S63、獲取用戶的用戶畫像數據。其中,用戶畫像數據為用戶的屬性、狀態、興趣等數據的集合,可通過用戶主動輸入或者根據用戶的歷史互動記錄獲取,然後對其進行整合,從而生成關於用戶的個性化的用戶畫像數據。
S64、根據用戶畫像數據從多個與當前話題相關的待選引導話題中選擇引導話題,並向用戶反饋引導話題。具體地,可根據用戶畫像數據和互動信息的上下文信息確定用戶的意圖信息,然後根據用戶的意圖信息從多個與當前話題相關的待選引導話題中選擇引導話題,並向用戶反饋引導話題。
舉例來說,引導話題可以是當前話題的延伸。例如:互動信息為“雞肉怎么做?”,則當前話題可為“雞肉的做法”。當前話題互動結束後,可對當前話題延伸,結合用戶畫像數據如“用戶為孕婦”,則可向用戶反饋引導話題“孕婦如何吃雞肉比較好”。
當然,引導話題也可以是基於當前話題的推薦。例如:互動信息為“盜夢空間好看嗎?”,則當前話題可為“盜夢空間評價”。當前話題互動結束後,可基於當前話題,並結合用戶畫像數據如“用戶喜歡看電影”,則可向用戶反饋引導話題“諾蘭的電影”。
而當無法根據用戶畫像數據和互動信息的上下文信息確定用戶的意圖信息時,則需要對用戶的意圖信息進行澄清。例如:互動信息為“去故宮怎么走?”,而北京、瀋陽和台北都有“故宮”,因此需要對用戶的意圖信息進行澄清,可根據互動信息向用戶返回意圖澄清的問句“請問您是要去哪個故宮?”。
另外,在步驟S62之前,還可執行步驟S65。
S65、建立話題圖譜。如圖13所示,話題圖譜中的一個節點表示用戶提出的一個話題或一個需求,每個節點中可包含有對應話題的回覆和滿足用戶需求的資源,而有關聯的節點之間可通過邊進行關聯,從而形成網狀的話題圖譜。具體地,建立話題圖譜的方法如下:可獲取話題關聯數據,然後根據話題關聯數據建立話題圖譜。更具體地,獲取話題關聯數據可分為兩種情況。
第一種情況:可先獲取網路文本數據,並從網路文本數據中獲取話題關聯數據。其中,網路文本數據可分為非結構化數據、半結構化數據和結構化數據。
當網路文本數據為非結構化數據時,可基於實體提取和句法分析獲取話題關聯數據。其中,非結構化數據可包括新聞、論壇、部落格、視頻等。例如:對於網路文本數據“最受矚目的諾貝爾文學獎花開有主,法國人莫迪亞諾成為新科幸運者。當然,多次提名總是和諾獎失之交臂的村上春樹還是那個“離諾獎最近的人”。中國詩人北島,也只是讓國人狂熱了一回。”,可基於實體提取技術提取實體信息“諾貝爾文學獎”、“法國人莫迪亞諾”、“村上春樹”、“中國詩人北島”,並基於句法分析獲知上述實體信息之間存在關聯。更進一步地,還可分析出法國人莫迪亞諾是諾貝爾文學獎獲得者,村上春樹和中國詩人北島沒有獲得諾貝爾文學獎等。
當網路文本數據為半結構化數據時,基於頁面結構分析、標籤提取、實體識別獲取話題關聯數據。其中,半結構化數據可包括維基百科、中文百科等百科數據,或者專題數據等。例如:如圖14所示,可基於頁面結構分析、標籤提取、實體識別,獲取“德約科維奇”的“場下生活”包括“家庭生活”和“慈善活動”。
當網路文本數據為結構化數據時,從知識圖譜中獲取話題關聯數據。其中,結構化數據可包括知識圖譜數據。例如:如圖15所示,電影“盜夢空間”和電影“星際穿越”的導演為“克里斯托弗.諾蘭”。
第二種情況:可先獲取用戶的搜尋行為數據或瀏覽行為數據,然後根據搜尋行為數據或瀏覽行為數據生成話題關聯數據。具體地,可獲取用戶的搜尋行為數據,並根據搜尋行為數據獲取對應的搜尋對象,然後根據搜尋對象生成話題關聯數據。例如:用戶連續搜尋了“諾蘭”、“諾蘭的電影”和“克里斯蒂安.貝爾”,則可對上述話題進行關聯,從而生成話題關聯數據。
當然,也可以獲取用戶的瀏覽行為數據,並根據瀏覽行為數據獲取對應的瀏覽對象,根據瀏覽對象生成話題關聯數據。例如:如圖16所示,可將用戶瀏覽網頁時點擊的多個新聞或視頻進行關聯,從而生成話題關聯數據。
在獲取話題關聯數據之後,可通過RandomWalk算法、關聯分析算法、協同過濾算法中的一種或多種,根據話題關聯數據建立話題圖譜。舉例來說,如圖17所示,q1、q2、q3以及q1’、q2’、q3’、q4’為話題,d1、d2、d3和d4為資源數據。從圖13中可知,資源數據d1和d2與話題q1相關聯;資源數據d1、d2、d3與話題q2相關聯;資源數據d4與話題q3相關聯,具有關聯關係的話題和資源數據之間用實線相連。基於RandomWalk算法可疊代計算出話題q1和資源數據d3之間具有關聯關係,它們之間用虛線相連。而話題q1’為用戶在瀏覽了資源數據d1或d4後,根據資源數據d1或d4發出的話題,它們之間的關聯關係具有順序關係。同理,話題q2’為根據資源數據d2發出的話題,話題q3’為根據資源數據d2或d3發出的話題,話題q4’為根據資源數據d3或d4發出的話題。進一步地,可推導出話題q1和話題q1’具有關聯關係,話題q1和話題q2’具有關聯關係等,最終建立如圖13所示的話題圖譜。
另外,引導和推薦服務子系統還可對互動信息進行解析,並獲取互動信息中的關鍵欄位。其中,關鍵欄位可包括時間信息、地點信息、提醒事件的一種或多種。然後可根據關鍵欄位建立提醒信息,在當時間信息達到預設時間時,可向用戶傳送提醒信息。舉例來說,假設用戶的互動信息為“明天晚上6點提醒我寫工作計畫”,則可解析出時間信息“2015年8月8日18:00”,提醒事件是“寫工作計畫”。當達到這個時間時,可對用戶進行提醒。
該發明實施例的基於人工智慧的人機互動方法,包含以下優點:(1)實現了人機互動系統從工具化轉變為擬人化,通過聊天、搜尋等服務,讓用戶在智慧型互動的過程中獲得輕鬆愉悅的互動體驗,而不再僅僅是搜尋和問答。(2)從關鍵字形式的搜尋改進為基於自然語言的搜尋,用戶可以使用靈活自如的自然語言來表達需求,多輪的互動過程更接近人與人之間的互動體驗。(3)實現從用戶主動搜尋演變為全天候的陪伴式服務,基於用戶的個性化模型可以隨時隨地為用戶提供推薦等服務。
為實現上述目的,該發明還提出一種基於人工智慧的人機互動系統。圖18是根據該發明一個實施例的基於人工智慧的人機互動系統的結構示意圖一。如圖18所示,該基於人工智慧的人機互動系統可包括:第一接收子系統10000、分發子系統20000、互動服務子系統30000、第二接收子系統40000、生成子系統50000和提供子系統60000。第一接收子系統10000可接收用戶通過套用終端輸入的輸入信息。其中,套用終端可包括PC端、移動終端或智慧型機器人。輸入信息可以是文本信息、圖像信息或語音信息。
分發子系統20000可根據用戶的輸入信息獲取用戶的意圖信息,並根據意圖信息將輸入信息分發至至少一個互動服務子系統30000。其中,互動服務子系統可包括需求滿足服務子系統31000、聊天服務子系統32000和引導和推薦服務子系統33000。在該發明的一個實施例中,分發子系統20000可根據用戶的輸入信息獲取用戶的意圖信息,然後根據意圖信息將輸入信息分發至上述的互動服務子系統30000。另外,第一接收子系統10000還可接收用戶的定製任務信息,分發子系統20000可根據定製任務信息將輸入信息分發至至少一個互動服務子系統30000。例如:有的用戶的任務只進行搜尋,則可只需定製需求滿足服務子系統;有的用戶的任務既需要搜尋,又需要進行聊天,則可定製需求滿足服務子系統和聊天服務子系統,以上均可根據用戶實際需求進行定製。
第二接收子系統40000可接收至少一個互動服務子系統30000返回的返回結果。生成子系統50000可按照預設的決策策略根據返回結果生成用戶返回結果。提供子系統60000可將用戶返回結果提供至用戶。
如圖19所示,生成子系統50000可包括第一獲取模組51000、第二獲取模組52000、第一決策模組53000。第一獲取模組51000可獲取輸入信息的需求分析特徵。第二獲取模組52000可獲取互動服務子系統返回的返回結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵。第一決策模組53000可根據需求分析特徵、返回結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵對返回結果進行決策以確定用戶返回結果。
具體地,對返回結果進行決策以確定用戶返回結果主要基於以下幾個特徵:1、需求分析特徵,通過對用戶的問題信息進行需求分析,可選擇更符合用戶需求的問答服務模組提供的問答結果。2、問答結果置信度特徵,每個問答服務模組提供的問答結果均具有置信度,可選擇置信度高的問答結果。3、用戶的對話互動信息的上下文特徵,可選擇更符合上下文信息的問答結果。4、用戶的個性化模型特徵,可選擇更符合用戶個性化需求的問答結果。其中,需求分析特徵、問答結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵分別對應有各自的決策權重。基於以上特徵對問答結果進行決策,從而確定最終的問答結果。在確定最終的問答結果後,可反饋給用戶,從而滿足用戶的需求。其中,問答結果可通過語音播報的方式,亦可以通過螢幕顯示的方式反饋給用戶。採用語音播報的方式使得人機互動的過程更加簡便、自然。
另外,如圖20所示,生成子系統50000還可訓練模組54000。訓練模組54000可根據用戶的日誌基於增強學習模型對需求分析特徵、問答結果的置信度特徵、用戶的對話互動信息的上下文特徵以及用戶的個性化模型特徵的決策權重進行訓練,從而為用戶提供更符合用戶需求的問答結果。
在生成用戶返回結果之後,提供子系統60000可將用戶返回結果轉化為自然語言並播報給用戶。當然,也可直接將用戶返回結果對應的文本展現給用戶。
在該發明的一個實施例中,如圖21所示,基於人工智慧的人機互動系統還可包括傳送子系統70000和執行子系統80000。
如果用戶返回結果中包括有執行指令,傳送子系統70000可將執行指令傳送至對應的執行子系統80000,執行子系統80000可執行該執行指令。其中,執行指令可包括但不僅限於硬體動作指令、播放音樂指令以及朗讀故事指令等。舉例來說,硬體動作指令主要針對智慧型機器人,智慧型機器人可具有頭部、軀幹、四肢等硬體組成部件,因此可執行諸如“點點頭”、“笑一下”、“舉起手來”等操控智慧型機器人硬體組成部件的指令。播放音樂指令通常可包括開始播放、停止播放、上一首、下一首、大點聲、聲音小一點等。註:用戶對於特定類型或風格等音樂的搜尋(如“適合睡前聽的音樂”、“周杰倫好聽的歌”等)並不屬於播放音樂指令。朗讀故事指令主要針對的是面向兒童的套用,如智慧型機器人需要代替父母給兒童講故事。與播放音樂指令類似,對特定主題、人物、情節等的故事進行搜尋也不屬於朗讀故事指令。
在該發明的一個實施例中,如圖22所示,基於人工智慧的人機互動系統還可包括補全子系統90000。
在接收用戶通過套用終端輸入的輸入信息之後,補全子系統90000可獲取與用戶互動的互動上文信息,然後可根據互動上文信息對輸入信息進行補全。具體地,在多輪互動過程中,用戶通常會基於對話上文省略輸入信息中的一部分內容,因此需要對輸入信息進行補全,從而澄清用戶的需求。例如:對話上文為“北京有什麼小吃?”,而輸入信息為“那特產呢?”,則需要對輸入信息進行補全,生成新的問題信息“北京有什麼特產?”。
在該發明的實施例中,如圖23所示,基於人工智慧的人機互動系統還可包括記錄子系統100000和監控子系統110000。
如果在網路資源中不存在滿足用戶需求的用戶返回結果,記錄子系統100000可記錄用戶的輸入信息,然後監控子系統110000以預設周期監控網路資源中是否存在滿足用戶需求的用戶返回結果,並當用戶返回結果存在時,提供子系統60000可將用戶返回結果提供至用戶。舉例來說,用戶搜尋一部剛上映的電影,但是網路資源中並沒有相應資源,則可記錄下該用戶這一需求,並按照一定周期搜尋網路資源中是否出現相應資源。當搜尋到相應資源後,可將該資源推送給用戶,即實現異步需求滿足。
如圖24所示,需求滿足服務子系統31000可包括第三獲取模組31100、第四獲取模組31200、第一分發模組31300、問答服務模組31400和第二決策模組31500。第三獲取模組31100可獲取用戶輸入的問題信息。其中,問題信息可以是文字信息,也可以是語音信息。例如,用戶輸入的問題信息“北京有什麼小吃?”。第四獲取模組31200可根據問題信息獲取用戶的用戶需求信息。具體地,可對問題信息進行需求分析,從而獲取用戶的用戶需求信息。舉例來說,用戶需求信息可以為垂類需求、阿拉丁需求、深度問答需求、信息搜尋需求等。第一分發模組31300可根據用戶需求信息將問題信息分發至對應的至少一個問答服務模組31400。其中,問答服務模組可包括阿拉丁服務模組31410、垂類服務模組31420、深度問答服務模組31430和信息搜尋服務模組31440。
在該發明的一個實施例中,當用戶需求信息為阿拉丁需求時,可將問題信息分發至阿拉丁服務模組31410;當用戶需求信息為垂類需求時,可將問題信息分發至垂類服務模組31420;當用戶需求信息為深度問答需求時,可將問題信息分發至深度問答服務模組31430;當用戶需求信息為信息搜尋需求時,可將問題分發至信息搜尋服務模組31440。
其中,阿拉丁服務是能夠為用戶需求提供精準滿足的一類服務的統稱,例如美元兌換人民幣、2015年春節放假等。舉例來說,用戶的問題信息為“劉德華的老婆是誰?”,則阿拉丁服務模組31410可對該問題信息進行分析,可分析出需求類型為“人物”,查詢主體為“劉德華”,查詢屬性為“老婆”,並可將查詢屬性進行歸一,將查詢屬性歸一為“妻子”。然後搜尋並獲得結果欄位為“朱麗倩”,再基於自然語言生成技術(N a tural Lang uage Generation)生成問答結果“劉德華的老婆是朱麗倩”。再例如:用戶的問題信息為“北京明天熱嗎?”,通過搜尋並獲得結果欄位為“35攝氏度”,可基於常識知識庫和預設的規則,生成問答結果“明天天氣很熱,最高溫度為35攝氏度,建議注意防暑降溫。”其中,常識知識庫可包括常識類知識,如溫度高於30攝氏度屬於天氣熱。
垂類服務是針對垂類需求進行多輪互動的服務,例如“訂機票”等。垂類服務主要通過對話控制技術(Dialogue Management)和對話策略技術(Dialogue Policy),對用戶的需求進行澄清,從而向用戶提供滿足用戶需求的問答結果。舉例來說,用戶的問題信息為“北京到上海的機票”,則可對該問題信息進行分析,然後向用戶反問“您的出發日期是哪天?”,用戶回答“明天”,然後繼續反問“您對航空公司是否有要求?”等,逐步澄清用戶的需求,並最終返回滿足用戶需求的問答結果。
如圖25所示,垂類服務模組31420可包括第五獲取子模組31421、確定子模組31422和互動子模組31423。第五獲取子模組31421可獲取用戶輸入的查詢詞。
在該發明的一個實施例中,用戶可通過多種方式輸入查詢詞,例如,用戶可以以文本、語音或圖像輸入查詢詞。
在用戶通過語音或者圖像輸入時,可將輸入的語音或者圖像轉換為用戶方便理解的自然語言的查詢詞,並在互動界面上顯示對應的文本。例如,在用戶通過語音方式輸入查詢詞後,可基於語言模型將用戶輸入的語音轉換為對應的文本,並以自然語言的形式在互動界面上顯示用戶輸入的查詢詞。
確定子模組31422可確定查詢詞屬於的垂類。具體地,在獲得用戶輸入的查詢詞後,需要確定查詢詞屬於的垂類,以方便後續在查詢詞屬於的垂類下,與用戶進行互動,或者獲得查詢詞的相關信息。截至2015年9月7日,可通過多種方式確定查詢詞所屬的垂類,用戶可根據實際需求進行選擇,舉例說明如下:
(1)基於機器學習方式確定查詢詞屬於的垂類。
具體地,首先從搜尋引擎日誌(包含語音搜尋)中挖掘和標註與垂類相關的查詢(query),構建垂類相關的訓練數據集合,然後對訓練數據提取特徵,訓練機器學習分類器(例如最大熵模型、支持向量機)根據提取到的特徵對垂類需求查詢進行分類,以確定查詢詞語與垂類的對應關係,並保存查詢詞語與垂類的對應關係。
註:在分類的過程中,對於多個垂類,可以採用所有類別統一模型多分類,也可以採用每個垂類單獨模型二分類,最後統一決策。具體而言,在獲得查詢詞後,可通過查詢詞與垂類的對應關係確定查詢詞對應的垂類。例如,在接收到用戶輸入的查詢詞為“天蠶土豆的小說”後,由於查詢詞中包含作者名,小說等詞,通過機器學習方式可確定該查詢詞對應的垂類為小說垂類。
(2)基於模式解析方式確定查詢詞屬於的垂類。
為了可以基於模式解析方式確定查詢詞屬於的垂類,在確定查詢詞屬於的垂類之前,針對每類垂類(例如小說垂類,美食垂類、地點垂類、餐館垂類等),可構建關鍵字列表,並保存垂類與關鍵字之間的對應關係。在接收到用戶輸入的查詢詞後,可基於分詞、命名實體識別等技術,對查詢中的實體和關鍵字進行解析,並用解析結果匹配垂直類別的模式集合,如果匹配成功,則發到對應的垂直類別。
以找餐館垂類為例:假定用戶當前輸入的查詢詞為“三里屯附近安靜的餐廳”,首先對這個query做分詞、命名實體識別等基礎詞法分析,通過分析可確定該query對應的模式為:【地點】_【風格】_【餐廳】。每個類別單獨挖掘模式集合。也就是說,對於待分發的query,首先,通過分詞、命名實體識別等基礎詞法分析方式對query進行分析,然後將分析結果與垂直類別的模式集合進行匹配,如果匹配成功,則分發到對應的垂直類別。
互動子模組31423可在查詢詞屬於的垂類中,與用戶進行至少一輪的互動,得到用戶需要的查詢結果,其中,每輪互動時,展示給用戶的信息包括:對應查詢詞的查詢結果,以及,引導信息。
在該發明的一個實施例中,如圖26所示,互動子模組31423可以包括:解析單元314231、第四獲取單元314232、展示單元314233和第五獲取單元314234。解析單元314231可將查詢詞解析為查詢詞屬於的垂類的垂類知識體系能夠表示的結構化信息。其中,每種垂類的垂類知識體系是預先建立的,垂類知識體系是基於垂直類別結構化網頁提供的信息和用戶需求表示體系建立起來的。其中,用戶需求表示體系是用戶需求的語義表示體系,具體地,可從用戶需求表示體系中挖掘出語義和結構知識。
註:用戶需求是根據查詢詞確定的。也就是說,用戶需求表示體系中包含大量與用戶需求對應的查詢詞,通過對查詢詞進行分析,可從中獲得查詢詞的語義和結構知識。
每種垂類的垂類知識體系的結構形式不同,下面舉例說明一下垂類知識體系的結構形式。例如,餐館垂類的垂類知識體系的結構形式如表1所示。通過表1可以看出,餐館垂類的垂類知識體系中包含各餐館相關的位置、菜系、口味、環境等多個維度信息,以及各維度可能的取值。
第四獲取單元314232可根據結構化信息、垂類知識體系,以及,查詢詞屬於的垂類的垂類資源庫,獲取相關信息。其中,相關信息可以包括但不限於對應查詢詞的查詢結果和引導信息。
在該發明的一個實施例中,如圖27所示,互動子模組31423還可以包括組成單元314235。
為了可以獲得查詢詞屬於的垂類的垂類資源,組成單元314235可以獲取查詢詞屬於的垂類的結構化資源和非結構化資源,並將結構化資源和非結構化資源組成垂類資源庫。其中,結構化資源是從多個對應的垂類網站抓取整合數據後得到的全量數據資源,非結構化資源根據用戶查詢詞或網際網路文本挖掘得到的結構化資源的補充或擴展信息。
下面以小說為例說明根據小說垂類的結構化資源和非結構化姿態組成小說垂類的垂類資源的過程。
通常垂直類別的結構化資源呈現複雜的體系結構,在組成小說垂類的垂類資源的過程中,可先獲取小說垂類的結構化資源,具體地,可通過抓取起點中文網、縱橫中文網、晉江、紅袖、17K小說網、小說閱讀網等主流中文小說網站上小說的信息建立全量數據資源。
然後,對於小說垂類的非結構化資源,可獲取小說名、作者、類別、標籤詞、資源滿足連結、小說簡介、小說周邊和百科信息等資源,並對所獲得的上述資源進行整合。最後可將整合後的資源和上述全量數據資源保存至垂類資源庫,以完成小說垂類的垂類資源的入庫。其中,針對其他垂類,獲取其對應的垂類資源的過程與獲得小說垂類的垂類資源的過程相同。
在該發明的一個實施例中,如圖28所示,第四獲取單元314232可以包括更新子單元3142321、生成子單元3142322和匹配子單元3142323。更新子單元3142321可根據結構化信息和用戶前一次的狀態信息,更新用戶的當前狀態信息。根據垂類場景中的常見對話流程,實現對話系統的狀態空間構建和互動策略初始化。具體地,在用戶第一次輸入查詢次後,可根據用戶的偏好或者互動歷史獲取用戶的初始化狀態信息。
生成子單元3142322可根據垂類知識體系和垂類資源庫,生成當前狀態信息對應的候選動作。其中,上述候選動作可以包括:滿足用戶需求的動作,或者,進一步澄清用戶需求的動作,或者,為用戶需求提供橫向或縱向的引導信息。其中,用戶需求根據查詢詞確定。
匹配子單元3142323可根據預設模型在候選動作中選擇與當前狀態信息匹配程度較高的預設個數的候選動作,將選擇的候選動作作為相關信息。具體地,在當前狀態信息對應的候選動作後,可基於預設模型例如P O M D P(partially observable Markov decision processes,部分可見馬爾科夫決策過程)模型從多個候選動作中選擇與當前狀態信息匹配程度較高的預設個數的候選動作,並將選擇的候選動作作為查詢詞的查詢結果和引導信息返回給用戶,用戶所使用的具有對話功能的應用程式的當前界面中顯示查詢詞的查詢結果和引導信息。其中,滿足用戶需求的動作,或者,進一步澄清用戶需求的動作在被選擇後作為查詢結果,為用戶需求提供橫向或縱向的引導信息在被選擇後作為引導信息。其中,預設個數是預先設定的,例如,預設個數為5,假定根據垂類知識體系和垂類資源庫,生成當前狀態信息的候選動作為10,此時,可通過POMDP模型選擇出與當前狀態信息匹配程度較高的5個候選動作,並將選擇的候選動作作為相關信息返回給用戶。
展示單元314233可向用戶展示查詢結果和引導信息。
第五獲取單元314234可在用戶根據引導信息再次輸入查詢詞後,重複上述根據查詢詞獲取相關信息的流程,直至得到用戶需要的查詢結果。
在該發明的一個實施例中,還可以根據用戶的反饋更新預設模型的參數,以便在參數不同時選擇不同的候選動作。也就是說,在用戶再次輸入查詢詞後,可根據用戶再次輸入的查詢詞調整預設模型的參數,以使預設模型根據調整後的參數為用戶選擇不同的候選動作。即根據當前狀態信息提供引導信息和滿足信息,不同狀態信息對應的引導信息和滿足信息不同,系統會根據當前狀態信息和用戶需求提供最優的滿足信息和引導信息,以引導用戶查詢垂類信息。
例如,當前用戶輸入的查詢詞為“西餐廳”,可確定該查詢詞對應的垂類為美食垂類,同時通過查詢詞可確定當前用戶的用戶需求是找一家西餐廳吃飯,由於時根據查詢詞不能確定用戶需要什麼類型的西餐廳,此時,根據垂類知識體系和垂類資源庫可多種候選動作,並通過POMDP模型選擇出與當前狀態信息匹配程度較高的13個候選動作,並將選擇的13個候選動作為查詢的相關信息返回給用戶。其中,當前用戶的當前界面中顯示的查詢結果如圖7所示,根據查詢詞不能確定用戶需要什麼類型的西餐廳,此時,可引導用戶提供更加詳細的第一引導信息,並提供與第一引導信息相對應的可能的回答,即第二引導信息,以方便用戶選擇或者輸入。其中,用戶還可通過點擊下一條指示按鍵查看與第一指導信息相對應的其他回答。在用戶點擊“請客戶吃飯後”,可根據用戶當前輸入的查詢詞確定符合用戶需求的一家餐館,並獲得與當前查詢詞的查詢結果和引導信息,其中,包含當前查詢詞的相關信息的界面,如圖8所示,此時,用戶可根據引導信息,進步一提問更多關於餐館的問題,如是否有wifi,是否方便停車等問題。
再例如,如果當前用戶輸入的查詢詞為“天蠶土豆的小說”,在接收到用戶的查詢詞後,通過語義分析可確定查詢詞中包含小說作者的名稱,根據查詢詞可確定查詢詞對應的垂類為小說垂類,同時通過查詢詞可確定用戶是想要根據作者名查詢圖書,可根據作者名獲得對應的候選動作,並在用戶所使用的應用程式中顯示查詢詞對應的相關信息,包含查詢詞的相關信息的界面形式如圖9所示,此時,用戶可根據需求點擊對應的書名。另外,用戶還以通過點擊第一按鍵,進行賬號登錄,或者清空訊息記錄。
再例如,如果當前用戶輸入的查詢詞為“好吃的韓國烤肉”,在接收到用戶輸入的查詢詞後,可將查詢詞對應的垂類為餐館美食垂類,具體而言,可將查詢詞解析為垂類知識體系能夠表示的結構化信息,並根據結構化信息、垂類知識體系和查詢詞屬於的垂類的垂類資源庫獲取查詢詞對應的查詢結果和引導信息,並將所獲得的查詢詞的查詢結果和引導信息返回給用戶,其中,包含查詢詞的相關信息的用戶界面,如圖10所示,此時,用戶可根據引導信息另選一個,也可以根據需求直接確定這家店。另外,用戶還可通過點擊下一條提示按鍵查看其他引導信息。
綜上可知,該實施例的基於人工智慧的信息查詢方法具有以下有益效果:(1)與通過搜尋引擎查找相比,在查詢過程中,該實施例的信息查詢方式不需要用戶對垂直類別有較深的了解,通過多輪互動的方式,引導用戶準確描述需求,並根據需求為用戶提供對應的查詢結果和引導信息。(2)對比垂類網站瀏覽方式,該實施例的信息查詢方式,不需要用戶瀏覽大量的網頁,且無需人工過濾無用的信息,該查詢方式智慧型過濾無用的信息,僅為用戶提供與查詢詞的相關信息。(3)對比相關的對話系統,該實施例的信息查詢方式,針對垂直類別資源結構的複雜性做特定處理,產生基於垂類實體結構的狀態空間,可以對垂類內的深層次問題進行滿足,並通過引導信息提示用戶再次輸入查詢詞,以進行下一輪的查詢,也就是說,該實施的信息查詢方式通過顯示引導信息可有效引導用戶提供正確的問題。
在該發明的一個實施例中,如圖29所示,深度問答服務模組31430可包括第一接收子模組31431、第一獲取子模組31432、生成子模組31433。具體地,深度問答服務為針對用戶輸入的問題信息,基於深入的語義分析和知識挖掘技術,從而為用戶提供精準的問答結果的服務。當用戶需求信息為深度問答需求時,第一接收子模組31431可接收問題信息,第一獲取子模組31432根據問題信息獲取對應的問題類型,然後生成子模組31433根據問題類型選擇對應的問答模式,以及根據選擇的答案生成模式和問題信息生成對應的問答結果。其中,問題類型可包括實體類型、觀點類型和片段類型。更具體地,當問題類型為實體類型時,如圖30所示,生成子模組31433可包括第一生成單元314331、擴展單元314332、抽取單元314333、第一計算單元314334和第一反饋單元314335。
第一生成單元314331可根據問題信息生成實體類問題信息,擴展單元314332基於搜尋引擎抓取的摘要和歷史展現日誌對實體類問題信息進行擴展以生成同族實體問題信息簇。其中,同族實體問題信息簇分別對應候選答案。然後抽取單元314333從同族實體問題信息簇分別對應候選答案中抽取候選實體,第一計算單元314334計算候選實體的置信度,第一反饋單元314335將置信度大於預設定信度閾值的候選實體作為問答結果進行反饋。舉例來說,問題信息為“劉德華老婆是誰?”,候選答案為“其實早在九二年時就有報導,劉德華和朱麗倩已經在加拿大秘密註冊結婚…”,其中,候選實體為“劉德華”、“朱麗倩”、“加拿大”。然後基於實體知識庫和問答語義匹配模型計算各候選實體的置信度,可計算出候選實體“朱麗倩”的置信度大於預設定信度閾值,則可確定“朱麗倩”為問答結果。另外,還可將候選答案中首次出現“朱麗倩”的分句作為答案摘要。
當問題類型為觀點類型時,如圖31所示,生成子模組31433可包括第一獲取單元314336、第一切分單元314337、第一聚合單元314338、判斷單元314339、選擇單元3143310、評分反饋單元3143311。第一獲取單元314336可獲取問題信息對應的候選答案,第一切分單元314337對候選答案進行切分以生成多個候選答案短句,然後第一聚合單元314338對多個候選答案短句進行聚合以生成觀點聚合簇。具體地,可根據短句中辭彙的IDF(反文檔頻率)得分提取候選答案短句中的關鍵字,並對包含否定詞的關鍵字進行泛化並生成否定標籤,然後基於否定標籤將關鍵字用向量進行表示,計算每兩個關鍵字之間的向量夾角和/或語義相似度,然後對向量夾角小於預設角度或語義相似度大於預設閾值的候選答案進行聚合以生成觀點聚合簇。
在此之後,判斷單元314339可判斷觀點聚合簇的觀點類型。其中,觀點可包括是非類、評價類、建議類等。具體地,可通過預先設定的規則或者基於統計模型確定觀點聚合簇的觀點類型。然後選擇單元3143310根據觀點類型從對應的觀點聚合簇中選擇出答案觀點。其中,選擇答案觀點的規則可包括但不僅限於選取信息覆蓋最全面的答案觀點、選取IDF*log(IDF)值最低的答案觀點和選取在候選答案對應的文章中出現次數最多的答案觀點。其中,IDF為反文檔頻率。在此之後,可生成答案觀點對應的摘要,然後可對答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。舉例來說,問題信息為“懷孕注意事項”,其中一個候選答案為“懷孕時應謹守醫、多、戰原則,亦即定期看醫師,多臥床休息,戰勝自己的不良習慣。”,可將該候選答案切分為“懷孕時應謹守醫、多、戰原則”、“亦即定期看醫師”、“多臥床休息”、“戰勝自己的不良習慣”四個候選答案短句。然後可將候選答案短句中重複的內容或者近似的內容進行聚合生成觀點聚合簇,並選出答案觀點。之後,評分反饋單元3143311可根據信息豐富度、論據充分度、信息冗餘度等對答案觀點進行評分,並將評分大於預設評分閾值的答案觀點作為問答結果進行反饋。此外,在選出答案觀點後,可獲取其在來源文章中所在的句子,然後按照預定長度截取句子,從而生成該答案觀點對應的摘要。之後可根據內容豐富度、答案權威性對摘要進行排序。
當問題類型為片段類型時,如圖32所示,生成子模組31433可包括第二獲取單元3143312、第二切分單元3143313、打分單元3143314、第二生成單元3143315、第一排序單元3143316、第二反饋單元3143317。第二獲取單元3143312可獲取問題信息對應的候選答案,第二切分單元3143313對候選答案進行切分以生成多個候選答案短句,然後打分單元3143314對多個候選答案短句進行重要度打分以生成候選答案短句對應的短句重要度特徵,第二生成單元3143315根據短句重要度特徵生成答案摘要,然後第一排序單元3143316可根據答案摘要的短句重要度特徵、答案權威性、問題信息的相關性和答案的豐富度對答案質量進行打分。其中,短句重要度特徵可包括聚合特徵、相關度特徵、類型特徵和問題答案匹配度特徵。其中,聚合特徵用於衡量短句的重複度,例如:詞向量質心特徵、NGram(計算出現機率)特徵、Lexrank(多文本自動摘要)特徵等。類型特徵為問題的類型特徵,如WHAT(什麼)類型、WHY(為什麼)類型、HOW(如何)類型等。答案權威性為答案來源的網站的權威度。在此之後,可獲取用戶的行為數據,然後根據用戶的行為數據和打分結果對候選答案進行排序,最終第二反饋單元3143317將排序結果作為問答結果進行反饋。其中,用戶的行為數據是可包括用戶對問答結果的點擊行為、在問答結果上停留的時間、通過當前的問答結果跳轉至其他問答結果等用戶的歷史行為信息。
在該發明的一個實施例中,如圖33所示,信息搜尋服務模組31440可包括第二接收子模組31441、第一搜尋子模組31442和分析反饋子模組31443。其中,分析反饋子模組31443可包括分析單元314431、第二排序單元314432和第三生成單元314433。
當用戶需求信息為信息搜尋需求時,第二接收子模組31441可接收問題信息,第一搜尋子模組31442根據問題信息進行搜尋以生成多個候選網頁,然後分析反饋子模組31443的分析單元314431可對候選網頁進行篇章分析以生成對應的候選篇章。具體地,可對候選網頁進行篇章內容抽取、篇章主題分割和篇章關係分析生成對應的候選篇章。其中,篇章內容抽取主要為識別候選網頁的正文部分,刪除與用戶需求信息無關的內容。篇章主題分割為對篇章的主題結構進行分析,可將篇章劃分為多個子主題。篇章關係分析為分析篇章中多個子主題之間的關係,例如並列關係等。在生成候選篇章之後,第二排序單元314432可對候選篇章中的句子進行打分排序。其中,打分排序主要基於句子在候選篇章中的重要度以及句子與用戶需求信息之間的相關度。在此之後,第三生成單元314433可獲取用戶的需求場景信息,並根據需求場景信息和打分排序結果生成摘要,最終將摘要作為問答結果進行反饋。其中場景信息可包括移動終端場景、電腦場景。當場景信息為移動終端場景時,則可對句子進行壓縮簡寫,使生成的摘要儘量簡明扼要;當場景信息為電腦場景時,可對句子進行拼接融合,使得生成的摘要詳細清楚。
如圖34所示,分析反饋子模組31443還可包括第二聚合單元314434。具體地,生成候選篇章時,由於候選篇章中的內容均與用戶需求信息具有相關性,則可能會有重複或互補的內容,則需要第二聚合單元314434對多個候選篇章的信息進行聚合。
第二決策模組31500可接收至少一個問答服務模組返回的問答結果,並對問答結果進行決策以確定最終的問答結果。
如圖35所示,聊天服務子系統32000可包括第一接收模組32100、第二分發模組32200、聊天服務模組32300、第二接收模組32400和排序模組32500。
第一接收模組32100用於接收用戶輸入的輸入信息。其中,輸入信息可以是語音信息,也可以是文本信息。第二分發模組32200用於將輸入信息分發至聊天服務模組32300。第二接收模組32400用於接收多個聊天服務模組32300返回的候選回復。其中,候選回復具有對應的置信度。排序模組32500用於基於置信度對待選回復進行排序,並根據排序結果生成聊天信息,並向用戶提供聊天信息。具體地,排序模組32500可獲取用戶的輸入信息的特徵,並基於輸入信息的特徵和置信度對待選回復進行排序。其中,輸入信息的特徵可包括分類特徵、字面特徵、話題特徵等。置信度越高,則待選回復質量越好,可按照置信度從高到低的順序對待選回復進行排序,最終向用戶提供符合用戶需求的聊天信息。
如圖36所示,聊天服務模組32300可包括基於搜尋的聊天模組32310、富知識聊天模組32320、基於畫像的聊天模組32330和基於眾包的聊天模組32340。
其中,如圖37所示,基於搜尋的聊天模組32310可包括切詞子模組32311、查詢子模組32312、過濾子模組32313、分類子模組32314和第一重排序子模組32315。其中,過濾子模組32313可包括第二計算單元323131、過濾單元323132、保留單元323133,分類子模組32314可包括第三計算單元323141、分類單元323142,第一重排序子模組32315可包括第三獲取單元323151和重排序單元323152。具體地,切詞子模組32311可對輸入信息進行切詞以生成多個聊天短句,然後查詢子模組32312可根據多個聊天短句查詢聊天語料庫從而生成多個聊天語料上句和多個聊天語料上句對應的多個聊天語料下句。其中,聊天語料庫為預先建立,語聊來源可包括但不限於貼吧等論壇數據中的“發帖-回帖”、微博中的“博文-回復”、問答社區中的“問題-答案”等。
在此之後,過濾子模組32313可對多個聊天語料上句進行過濾。具體地,第二計算單元323131可計算輸入信息與多個聊天語料上句之間的相似度。如果相似度小於第一預設相似度閾值,則過濾單元323132可將對應的聊天語料上句過濾;如果相似度大於或等於第一預設相似度閾值,則保留單元323133可將對應的聊天語料上句保留。
在對聊天語料上句進行過濾之後,分類子模組32314可對過濾之後的聊天語料上句對應的聊天語料下句進行分類。具體地,第三計算單元323141可計算輸入信息與多個聊天語料下句之間的相似度,分類單元323142根據相似度基於G BDT(梯度升壓決策樹,Gradient Boost Decision Tree)、SVM(支持向量機,Support Vector Machine)等機器學習模型對多個聊天語料下句進行分類。其中,輸入信息與多個聊天語料下句之間的相似度可以是輸入信息與聊天語料下句之間字面的相似度,也可以是輸入信息與聊天語料下句基於深度神經網路訓練得到的相似度,也可以是輸入信息與聊天語料下句基於機器翻譯模型訓練得到的相似度。應當理解的是,該實施例中輸入信息與多個聊天語料下句之間的相似度以及GBDT、SVM等機器學習模型為公知技術。
然後第一重排序子模組32315可對分類之後的聊天語料下句進行重排序,並根據排序結果生成候選回復。具體地,第三獲取單元323151可根據用戶聊天的上文信息獲取用戶的聊天屬性,重排序單元323152根據聊天屬性對分類之後的聊天語料下句基於學習排序模型(Learning-To-Rank)進行重排序。其中,聊天屬性可包括聊天的場合如時間地點等、聊天的趣味性、聊天的風格等。當然,聊天屬性不僅限於從用戶聊天的上文信息中獲取,也可以根據用戶長期的歷史聊天記錄獲取。應當理解的是,該實施例中學習排序模型為公知技術。
如圖38所示,富知識聊天模組32320可包括第二搜尋子模組32321、抽取子模組32322、改寫子模組32323和第二重排序子模組32324。具體地,第二搜尋子模組32321可根據輸入信息生成搜尋詞,並根據搜尋詞進行搜尋以生成多個搜尋結果,然後抽取子模組32322對多個搜尋結果進行句子抽取,以獲取與搜尋詞的相似度大於第二預設相似度閾值的句子的候選句子集合。在此之後,改寫子模組32323可對候選句子集合中的句子進行改寫以生成候選回復。此外,第二重排序子模組32324可根據用戶的聊天屬性對候選句子集合中的句子進行重排序。舉例來說,輸入信息為“希望有機會能到富士山旅遊”,可對輸入信息進行解析並生成對應的搜尋詞“富士山、旅遊”,然後根據搜尋詞獲得多個搜尋結果,並抽取與搜尋詞相似度高的句子。其中,有的句子可能包括如“記者了解到”等明顯節選自網頁文本,因此需要對這些句子進行改寫,使其更加流暢,更像自然語言聊天的句子,最終生成的候選回復為“富士山由於天氣原因,一年中只有規定的夏季的一段時間可以登山”,相對於傳統的回覆“我也想去富士山,一起吧。”,具有一定的知識性,且具有一定時效性,可使用戶能在聊天過程中獲取有用的知識。
如圖39所示,基於畫像的聊天模組32330可包括第二獲取子模組32331、第一判斷子模組32332、傳送子模組32333、第一更新子模組32334。
為了更好地實現擬人化,以及為用戶提供個性化服務,人機聊天系統可設定自身的屬性、狀態、興趣等,即系統畫像模型。還可設定用戶的屬性、狀態、興趣等,即用戶畫像模型。當然,在面對不同的用戶時,使用的系統畫像模型可以是同一個,也可以針對每個用戶均可設定與之對應的系統畫像模型。系統畫像模型和用戶畫像模型均基於畫像知識圖譜。畫像知識圖譜是一個層次化的知識體系。舉例來說,“家庭成員”節點可包括“兄弟姐妹”和“父母”兩個子節點,“父母”子節點包括“父親”和“母親”兩個子節點。每個節點均對應有多個輸入信息模板簇,例如“你父親是誰”、“誰是你父親”、“你的父親叫什麼”屬於同一個輸入信息模板簇。每個輸入信息模板簇對應一個或多個候選回復。輸入信息模板簇和候選回復可包含變數,例如興趣、愛好、嗜好對應同一屬性“INTEREST”,而“INTEREST”的屬性值可包括爬山、音樂、讀書、運動等。
具體地,第二獲取子模組32331可獲取用戶的聊天語境,第一判斷子模組32332根據聊天語境判斷是否滿足收集條件。如果判斷滿足收集條件,則傳送子模組32333可向用戶傳送問題。在此之後,第一更新子模組32334可接收用戶根據問題的回答信息,並根據回答信息對用戶畫像模型進行更新。例如:在與用戶聊電影相關的話題時,可向用戶傳送問題“你喜歡什麼電影?”或者用戶問人機聊天系統“你喜歡吃什麼?”,人機聊天系統可反問用戶“你喜歡吃什麼?”,在用戶回答後,可基於用戶的回答信息對用戶畫像模型進行更新,更加符合用戶個性化的需求。
此外,如圖40所示,基於畫像的聊天模組32330還可包括第三獲取子模組32335、提取子模組32336、第二更新子模組32337。
具體地,第三獲取子模組32335可獲取用戶的聊天內容,提取子模組32336根據聊天內容提取用戶畫像數據,然後第二更新子模組32337根據提取的用戶畫像數據對用戶畫像模型進行更新。例如:用戶在聊天過程中說道“我沒事的時候喜歡爬爬山、釣釣魚。”,可提取用戶畫像數據“愛好爬山、愛好釣魚”,從而對用戶畫像模型進行更新。同時,可基於用戶畫像數據抽取合適的答案,向用戶返回合適的回答信息。
眾包(crowdsourcing)是一種將特定任務外包給網際網路中非特定用戶的方法,對於人機聊天中,機器難以回答的問題,可分發給執行者線上地實時地進行人工回復,從而滿足用戶的實際需求。具體地,基於眾包的聊天模組32340可判斷輸入信息是否適合眾包完成,例如用戶情緒低落需要安慰等,則適合眾包完成。例如用戶的輸入信息中包含有個人身份信息、密碼、電話等隱私信息,則不適合眾包完成。
如果判斷適合眾包完成,則基於眾包的聊天模組32340可將輸入信息分發至對應的執行者。當然,同時也可將上文信息一同傳送給執行者,執行者可根據上文信息和輸入信息進行回復。然後基於眾包的聊天模組可接收執行者的回覆信息,並對回覆信息進行質量判斷。如果滿足質量要求,則將回覆信息作為候選回復。例如:回覆信息中如果包含低俗、反動、色情內容,則質量不過關。或者執行者回復的時間超過了預定時長,則該執行者的回覆信息將不被採用,同時可將該回覆信息保存至聊天語料庫中。
另外,如圖41所示,聊天服務子系統32000還可包括糾錯模組32600。糾錯模組32600用於在接收用戶輸入的輸入信息之後,對輸入信息進行糾錯和/或改寫,用於糾正輸入信息中的錯別字,改寫不規則的口語化表達等。
另外,如圖42所示,聊天服務子系統32000還可包括分析模組32700。分析模組32700用於在接收用戶輸入的輸入信息之後,對輸入信息進行領域分析以獲取輸入信息對應的領域,然後第二分發模組32200可根據輸入信息對應的領域將輸入信息分發至具有相同或相近似領域的聊天服務模組。
另外,如圖43所示,聊天服務子系統32000還可包括第五獲取模組32800、第一判斷模組32900、補全模組321000。第五獲取模組32800用於在接收用戶輸入的輸入信息之後,獲取與用戶聊天的上文信息,並根據上文信息獲取用戶當前的話題信息。然後,第一判斷模組32900可根據上文信息判斷輸入信息與上文信息的依賴關係是否大於預設關係閾值。在依賴關係大於預設關係閾值時,補全模組321000可根據上文信息對輸入信息進行補全,從而保證人機聊天的流暢度。具體地,對輸入信息進行補全可包括指代消解。舉例來說,輸入信息為“他結婚了么?”,則可根據上文信息“劉德華”將輸入信息中的“他”替代為“劉德華”。對輸入信息進行補全還可包括省略補全。舉例來說,上文信息“劉德華老婆叫朱麗倩。”,輸入信息為“我不認識。”,則可將輸入信息補全為“我不認識朱麗倩。”。
此外,如圖44所示,聊天服務子系統32000還可包括第二判斷模組321100、第七獲取模組321200、第一生成模組321300和第二生成模組321400。第二判斷模組321100用於判斷輸入信息是否屬於無實際內容的聊天信息,如“呵呵”、“hoho”等。如果判斷是屬於無實際內容的聊天信息,則第七獲取模組321200可獲取當前話題,即基於話題模型(Topic Model)根據歷史聊天記錄計算出當前話題。在獲取當前話題之後,第一生成模組321300可基於話題聊天圖譜根據當前話題生成引導話題。其中,話題聊天圖譜是一個以話題為節點的有向圖。例如,節點“休閒”可指向節點“看電影”和節點“聽歌”,則說明可從話題“休閒”引導至話題“看電影”或者話題“聽歌”。話題“看電影”和話題“聽歌”均具有一定的引導機率,可根據引導機率實現話題的引導,從而保證引導話題的多樣性。然後,第二生成模組321400可根據引導話題生成候選回復。具體地,可基於自然語言生成模型(Natural Language Generation),生成候選回復的模板,將引導話題填充至該模板中生成候選回復;也可以選取包含引導話題的句子作為候選回復,從而實現對用戶進行主動地聊天話題引導。
如圖45所示,引導和推薦服務子系統33000可包括:確定模組33100、獲得模組33200、第八獲取模組33300和反饋模組33400。確定模組33100用於接收用戶輸入的互動信息,並根據互動信息確定當前話題。具體地,確定模組33100可先接收用戶輸入的互動信息例如:“盜夢空間好看嗎?”,然後對該互動信息進行需求識別以及相關性計算,從而確定當前話題為“盜夢空間評價”。獲得模組33200用於基於話題圖譜獲得多個與當前話題相關的待選引導話題。其中,話題圖譜可包括多個話題及話題之間的關聯關係。具體地,獲得模組33200可基於預先建立的話題圖譜獲取多個與當前話題相關的待選引導話題。例如:當前話題為“盜夢空間評價”,則可根據話題圖譜獲取多個與“盜夢空間評價”相關的引導話題如“諾蘭導演的電影”、“萊昂納多主演的電影”等,及它們與“盜夢空間評價”之間的關聯關係。第八獲取模組33300用於獲取用戶的用戶畫像數據。其中,用戶畫像數據為用戶的屬性、狀態、興趣等數據的集合,可通過用戶主動輸入或者根據用戶的歷史互動記錄獲取,然後對其進行整合,從而生成關於用戶的個性化的用戶畫像數據。反饋模組33400用於根據用戶畫像數據從多個與當前話題相關的待選引導話題中選擇引導話題,並向用戶反饋引導話題。具體地,反饋模組33400可根據用戶畫像數據和互動信息的上下文信息確定用戶的意圖信息,然後根據用戶的意圖信息從多個與當前話題相關的待選引導話題中選擇引導話題,並向用戶反饋引導話題。
舉例來說,引導話題可以是當前話題的延伸。例如:互動信息為“雞肉怎么做?”,則當前話題可為“雞肉的做法”。當前話題互動結束後,可對當前話題延伸,結合用戶畫像數據如“用戶為孕婦”,則可向用戶反饋引導話題“孕婦如何吃雞肉比較好”。
當然,引導話題也可以是基於當前話題的推薦。例如:互動信息為“盜夢空間好看嗎?”,則當前話題可為“盜夢空間評價”。當前話題互動結束後,可基於當前話題,並結合用戶畫像數據如“用戶喜歡看電影”,則可向用戶反饋引導話題“諾蘭的電影”。
而當無法根據用戶畫像數據和互動信息的上下文信息確定用戶的意圖信息時,則需要對用戶的意圖信息進行澄清。例如:互動信息為“去故宮怎么走?”,而北京、瀋陽和台北都有“故宮”,因此需要對用戶的意圖信息進行澄清,可根據互動信息向用戶返回意圖澄清的問句“請問您是要去哪個故宮?”。
另外,如圖46所示,引導和推薦服務子系統33000還可包括建立模組33500。建立模組33500用於建立話題圖譜。話題圖譜中的一個節點表示用戶提出的一個話題或一個需求,每個節點中可包含有對應話題的回覆和滿足用戶需求的資源,而有關聯的節點之間可通過邊進行關聯,從而形成網狀的話題圖譜。具體地,建立模組33500可包括第四獲取子模組33510和建立子模組33520。第四獲取子模組33510可獲取話題關聯數據。第四獲取子模組33510獲取話題關聯數據可分為兩種情況。
第一種情況:可先獲取網路文本數據,並從網路文本數據中獲取話題關聯數據。其中,網路文本數據可分為非結構化數據、半結構化數據和結構化數據。當網路文本數據為非結構化數據時,可基於實體提取和句法分析獲取話題關聯數據。其中,非結構化數據可包括新聞、論壇、部落格、視頻等。例如:對於網路文本數據“最受矚目的諾貝爾文學獎花開有主,法國人莫迪亞諾成為新科幸運者。當然,多次提名總是和諾獎失之交臂的村上春樹還是那個“離諾獎最近的人”。中國詩人北島,也只是讓國人狂熱了一回。”,可基於實體提取技術提取實體信息“諾貝爾文學獎”、“法國人莫迪亞諾”、“村上春樹”、“中國詩人北島”,並基於句法分析獲知上述實體信息之間存在關聯。更進一步地,還可分析出法國人莫迪亞諾是諾貝爾文學獎獲得者,村上春樹和中國詩人北島沒有獲得諾貝爾文學獎等。當網路文本數據為半結構化數據時,基於頁面結構分析、標籤提取、實體識別獲取話題關聯數據。其中,半結構化數據可包括維基百科、中文百科等百科數據,或者專題數據等。例如:可基於頁面結構分析、標籤提取、實體識別,獲取“德約科維奇”的“場下生活”包括“家庭生活”和“慈善活動”。當網路文本數據為結構化數據時,從知識圖譜中獲取話題關聯數據。其中,結構化數據可包括知識圖譜數據。例如:電影“盜夢空間”和電影“星際穿越”的導演為“克里斯托弗.諾蘭”。
第二種情況:可先獲取用戶的行為數據,然後根據行為數據生成話題關聯數據。其中,行為數據可包括搜尋行為數據和瀏覽行為數據。具體地,可獲取用戶的搜尋行為數據,並根據搜尋行為數據獲取對應的搜尋對象,然後根據搜尋對象生成話題關聯數據。例如:用戶連續搜尋了“諾蘭”、“諾蘭的電影”和“克里斯蒂安.貝爾”,則可對上述話題進行關聯,從而生成話題關聯數據。
當然,也可以獲取用戶的瀏覽行為數據,並根據瀏覽行為數據獲取對應的瀏覽對象,根據瀏覽對象生成話題關聯數據。例如:可將用戶瀏覽網頁時點擊的多個新聞或視頻進行關聯,從而生成話題關聯數據。
在獲取話題關聯數據之後,建立子模組33520可通過RandomWalk算法、關聯分析算法、協同過濾算法中的一種或多種,根據話題關聯數據建立話題圖譜。
舉例來說,如圖17所示,q1、q2、q3以及q1’、q2’、q3’、q4’為話題,d1、d2、d3和d4為資源數據。從圖13中可知,資源數據d1和d2與話題q1相關聯;資源數據d1、d2、d3與話題q2相關聯;資源數據d4與話題q3相關聯,具有關聯關係的話題和資源數據之間用實線相連。基於RandomWalk算法可疊代計算出話題q1和資源數據d3之間具有關聯關係,它們之間用虛線相連。而話題q1’為用戶在瀏覽了資源數據d1或d4後,根據資源數據d1或d4發出的話題,它們之間的關聯關係具有順序關係。同理,話題q2’為根據資源數據d2發出的話題,話題q3’為根據資源數據d2或d3發出的話題,話題q4’為根據資源數據d3或d4發出的話題。進一步地,可推導出話題q1和話題q1’具有關聯關係,話題q1和話題q2’具有關聯關係等,最終建立如圖13所示的話題圖譜。
另外,如圖47所示,引導和推薦服務子系統33000還可包括解析模組33600、建立提醒模組33700和提醒模組33800。具體地,解析模組33600可對互動信息進行解析,並獲取互動信息中的關鍵欄位。其中,關鍵欄位可包括時間信息、地點信息、提醒事件的一種或多種。然後建立提醒模組33700可根據關鍵欄位建立提醒信息,在當時間信息達到預設時間時,提醒模組33800可向用戶傳送提醒信息。舉例來說,假設用戶的互動信息為“明天晚上6點提醒我寫工作計畫”,則可解析出時間信息“2015年8月8日18:00”,提醒事件是“寫工作計畫”。當達到這個時間時,可對用戶進行提醒。
該發明實施例的基於人工智慧的人機互動系統,包含以下優點:(1)實現了人機互動系統從工具化轉變為擬人化,通過聊天、搜尋等服務,讓用戶在智慧型互動的過程中獲得輕鬆愉悅的互動體驗,而不再僅僅是搜尋和問答。(2)從關鍵字形式的搜尋改進為基於自然語言的搜尋,用戶可以使用靈活自如的自然語言來表達需求,多輪的互動過程更接近人與人之間的互動體驗。(3)實現從用戶主動搜尋演變為全天候的陪伴式服務,基於用戶的個性化模型可以隨時隨地為用戶提供推薦等服務。
《基於人工智慧的人機互動方法和系統》術語“第一”、“第二”僅用於描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特徵的數量。由此,限定有“第一”、“第二”的特徵可以明示或者隱含地包括至少一個該特徵。在該發明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
在《基於人工智慧的人機互動方法和系統》說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特徵或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,該領域的技術人員可以將該說明書中描述的不同實施例或示例以及不同實施例或示例的特徵進行結合和組合。
儘管上面已經示出和描述了《基於人工智慧的人機互動方法和系統》的實施例,可以理解的是,上述實施例是示例性的,不能理解為對該發明的限制,該領域的普通技術人員在該發明的範圍內可以對上述實施例進行變化、修改、替換和變型。

專利榮譽

2021年6月24日,《基於人工智慧的人機互動方法和系統》獲得第二十二屆中國專利金獎。

相關詞條

熱門詞條

聯絡我們