《特定域個性化互動式問答技術研究》是依託哈爾濱工業大學,由張宇擔任項目負責人的面上項目。
基本介紹
- 中文名:特定域個性化互動式問答技術研究
- 依託單位:哈爾濱工業大學
- 項目類別:面上項目
- 項目負責人:張宇
項目摘要,結題摘要,
項目摘要
問答技術旨在令計算機能夠回答用戶用自然語言提問的問題。然而,在當前的研究中,沒有很好地融入人機互動及個性化分析技術,因此難以準確理解用戶意圖和個性化需求,從而無法為用戶提供更加精準的答案。本項目針對特定域開展個性化互動式問答技術研究,其主要特點和創新點體現在如下方面:(1)系統能夠根據人機互動的上下文對用戶當前問題進行分析;(2)系統對於有歧義或模糊的用戶問題,可自動生成澄清請求問題,通過與用戶的互動進一步明確其信息需求;(3)深入挖掘用戶興趣和偏好,構建用戶模型,從而為用戶提供個性化答案;(4)對相似用戶加以聚類,通過協同式問題推薦的方式向用戶提供其感興趣的信息;(5)建立以系統為中心和以用戶為中心的評測方案,對個性化互動式問答系統的性能評測進行研究。我們力爭通過本項目的研究推動問答及個性化信息服務技術的發展。
結題摘要
本課題針對互動式問答系統中的對話上下文識別,對話問句理解以及用戶模型建立三項技術進行了深入的研究。 其中,研究內容主要包括中文互動式問答用戶問題相關檢測,基於問句主題相似性原理,我們採用二元分類方法解決連續問題集的語境劃分問題,在相關問題檢測上,準確率達到了96.1%; 基於複述的問句擴展研究,針對用戶問句與候選文檔之間的詞不匹配現象,我們提出了短語複述方法解決相同語義的不同表述匹配問題,在文檔檢索上,顯著優於現有最優的檢索模型及問句擴展方法。 基於中心理論的中文對話省略恢復,基於用戶語篇一致性原理,我們提出了基於中心理論規則建模用戶表述上的省略行為,在省略成分恢復的準確率上,超出baseline 8.91%; 基於詞項重要度賦權的問句檢索,為了區分不同詞項在檢索中的重要性,我們採用邏輯回歸方法解決傳統詞項賦權方法對長尾詞權重的偏置,在相似問句檢索上,MAP結果在統計上顯著優於現有最優的問句檢索系統; 融合多類特徵的Web查詢意圖識別,針對查詢詞項與用戶意圖之間的語義鴻溝,我們採用SVM分類器解決查詢中的詞項與用戶意圖的匹配問題,在用戶意圖識別上,準確率達到了88.5%; 基於主題模型的用戶模型,針對已有方法的低效性,我們採用PLSI主題模型解決了低效問題,在用戶主題建模上,NDCG達到了82.8%,顯著優於K-means及其他主題模型的方法; 基於領域特徵權重的社區型問句分類,針對已有方法未能區分分類特徵的重要性問題,我們採用最大熵模型解決特徵權重問題,在問題分類的準確率上,顯著優於現有最優問句分類系統; 基於查詢子主題的查詢摘要,針對查詢較短,主題信息模糊的問題,我們提出抽取式摘要方法解決查詢子主題挖掘問題,在查詢摘要抽取上,NDCG@3達到了60.8%,優於現有最先進的查詢摘要方法3.8%。 本課題共發表期刊論文4篇(其中1篇SCI索引,3篇EI索引),會議論文5篇(其中CCF A類和B類國際會議各一篇)。 研究成果達到了預期的計畫。