基於語言模型的通用實體檢索建模及框架實現研究

項目摘要

隨著用戶信息需求的日益精確化，信息檢索研究正向細粒度和語義（關聯）化發展，實體檢索作為這一趨勢的重要方向之一，是信息檢索領域研究的一個新興熱點。本課題試圖採用語言模型等信息檢索建模方法，利用網路信息格式化抽取、命名實體識別、自然語言處理等相關技術，對實體檢索的核心問題進行研究，擬提出通用實體檢索模型框架，並建立以實體為中心的查詢處理和檢索結果組織方案，最後構建面向通用實體的檢索原型系統。.鑒於實體檢索問題的通用性，本研究嘗試構建的實體檢索模型和框架對細粒度語義信息檢索方法和通用模型的構建具有較強的理論價值和實例參考意義；研究中構建的實體檢索原型系統在數字圖書館建設、搜尋引擎開發及專業領域實體檢索等方面亦具有較大的實用價值。

結題摘要

隨著用戶對檢索結果的要求越來越精確和具體，信息檢索研究正向細粒度和語義（關聯）化發展，實體檢索作為其中的發展方向，是當前信息檢索研究和關注的焦點之一。本項目組成員通過四年時間的努力，圍繞本項目的預期成果的目標，按照既定的研究工作方案，實現了成員間實質性合作，基本完成了預期目標。採用語言模型等信息檢索建模方法，利用網路信息格式化抽取、命名實體識別、自然語言處理等相關技術，對實體檢索的核心問題進行研究，重點關注自然語言查詢域中查詢類別的自動識別與建模方法研究、基於用戶行為的實體檢索需求分析與查詢意圖分析研究、文檔與實體關係建模及基於機器學習的實體文檔關係自動識別研究、中文實體檢索數據集構建以及基於統計語言模型的通用實體檢索框架研究。圍繞上述問題，在國際信息檢索頂級會議SIGIR、ECIR和英文雜誌等發表文章6篇，在行業權威期刊、核心期刊發文二十餘篇，構建專家實體檢索數據集1個、武漢大學中文實體數據集1個、學術實體標註數據集1個，開發WHU-ES檢索平台一個、軟體工具4個，並獲軟體著作權兩項，申請專利一個。科研成果具有較強的理論價值和實例參考意義：開發的相關軟體工具現已套用於中國科學技術信息研究所承擔的國家科技支撐計畫項目“電動汽車技術預測與決策支持系統開發”以及“上市公司年報資料庫建設及服務系統研發”項目中，並取得了預期效果。科研論文中提出的數據採集算法與信息檢索模型在武漢大學邊沿與海洋研究院、湖北省科技信息研究院（網路與資源研究中心）、湖北省標準化研究院等多個科研院所和企事業單位得到廣泛套用。

基於語言模型的通用實體檢索建模及框架實現研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條