面向大規模XML文檔集的關鍵字檢索系統關鍵技術研究

《面向大規模XML文檔集的關鍵字檢索系統關鍵技術研究》是依託北京大學,由鄧志鴻擔任負責人的面上項目。

基本介紹

  • 中文名:面向大規模XML文檔集的關鍵字檢索系統關鍵技術研究
  • 項目負責人:鄧志鴻
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

隨著大量數據以XML文檔的形式存儲和發布,人們亟需從這些數據中獲取有價值信息,而現有XML關鍵字檢索方法和技術不適用於處理大規模XML文檔集。針對這種現狀,我們提出面向大規模XML文檔集的實用性強、互動性好的關鍵字檢索系統的關鍵技術的研究課題。本課題擬引入機器學習的方法,解決內容和結構在結果評分中的融合問題,建立有效的結果評分方法,提高XML關鍵字檢索效果;研究支持非單調評分方法、增量以及近似查詢的Top-k查詢理論方法,設計支持多種查詢語義模型的Top-k查詢算法,快速回響用戶;研究關鍵字查詢自動轉換成樹結構查詢的技術,建立基於樹結構查詢推薦的用戶互動檢索模型,提高用戶準確表達信息需求的能力、改善用戶體驗。以上述研究成果為基礎,研製原型系統,形成一系列符合面向大規模XML文檔集關鍵字檢索特點的關鍵技術。我們的研究工作將豐富和發展XML關鍵字檢索的理論和方法,具有重要的理論意義和實用價值。

結題摘要

作為Internet和Intranet上數據集成和交換的標準,XML已經被廣泛套用於電子商務、內容管理、多媒體、數字圖書館以及中間件等眾多領域。越來越多的數據以XML文檔的形式存儲和發布,並逐漸形成趨勢。面對各行業中存儲和發布的大量XML文檔,人們亟需有效檢索手段從中獲取有價值信息。而現有XML關鍵字檢索方法和技術不適用於處理大規模XML文檔集。針對這種現狀,我們提出了面向大規模XML文檔集檢索的關鍵技術研究課題。本項目擬引入機器學習的方法,解決內容和結構在結果評分中的融合問題,建立有效的結果評分方法,提高XML關鍵字檢索效果;研究查詢理論和方法,設計支持不同套用場景的查詢算法,快速回響用戶;研究關鍵字查詢自動轉換成樹結構查詢的技術,建立基於樹結構查詢推薦的用戶互動檢索模型,提高用戶準確表達信息需求的能力、改善用戶體驗。以上述研究成果為基礎,研製原型系統,形成一系列符合面向大規模XML文檔集關鍵字檢索特點的核心技術。 本項目在國家自然科學基金支持下,開展了相關核心關鍵技術攻關,取得了以高水平學術論文和發明專利授權為主要形式的成果,完成了三項關鍵技術創新: (1)提出了基於關鍵字分布的結果重排序模型,建立了有效的面向XML關鍵字檢索的結果評分方法;(2)基於兩層索引框架,設計出針對不同套用場景的一般查詢和Top-k查詢的算法,解決了快速回響用戶的問題; (3)基於條件隨機場理論,提出了XML關鍵字查詢語義反演模型,對基於關鍵字檢索的用戶查詢意圖進行了有效的預測,改善了用戶體驗。項目組獲得國家發明專利2項,發表學術論文25篇,其中SCI收錄 16篇,EI收錄7 篇,中國計算機學會A類會議論文4篇。項目研究成果有助於提升我國網際網路搜尋相關行業的競爭力,具有良好的套用前景。
check!

熱門詞條

聯絡我們