基於用戶意圖的語義大數據處理關鍵技術研究

基於用戶意圖的語義大數據處理關鍵技術研究

《基於用戶意圖的語義大數據處理關鍵技術研究》是依託天津大學,由饒國政擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於用戶意圖的語義大數據處理關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:饒國政
  • 依託單位:天津大學
項目摘要,結題摘要,

項目摘要

作為語義Web的數據基礎,Web上的RDF三元組規模已達幾百億條,已經形成語義大數據。本項目針對語義大數據的組織和處理的難題,研究滿足用戶意圖的語義小數據的獲取方法,主要包括:(1)針對語義大數據中存在的質量參差不齊和語義不一致的問題,研究基於遺忘理論的多源語義數據抽取方法,構建多視圖本體知識組織模型;(2)從用戶興趣偏好、用戶行為、背景知識和上下文信息等幾個方面以及What, Where, Who, When, Why和How等多個角度構建動態更新的二維用戶意圖模型;(3)建立用戶意圖模型和語義數據查詢的關聯模型,研究基於用戶意圖模型的查詢語義擴展機制,構建用戶對語義數據查詢結果選擇的演化博弈模型。本項目給出了語義大數據的組織和處理的新途徑,提出了基於用戶意圖的獲取語義小數據的新方法,將為推動Web上語義大數據的共享和套用奠定基礎。

結題摘要

語義數據在連結數據運動推動下,數據量呈爆炸式的增長,具有海量規模和無標度特性的RDF圖數據的組織和處理,成為分散式RDF數據的重要問題。針對該問題,本項目主要研究了以下內容: 根據術語集和斷言集結構對RDF數據整體特性的影響,研究基於遺忘理論的多源語義數據術語集的抽取方法,構建設計了一個符合海量RDF數據集特性的多視圖本體知識組織模型。在劃分放置上,提出了以圖劃分為邏輯劃分,區間劃分為物理劃分的雙層劃分放置,該方案結合了圖劃分的低通信開銷特性和區間劃分的水平可擴展性及動態負載均衡。實現了術語集冗餘放置下的SPARQL查詢接口。實驗結果證明術語集冗餘處理方法可以有效降低語義大數據跨劃分邊的數量。通過BGP查詢驗證了術語集冗餘劃分可以有效的提高大規模SPARQL查詢的性能。 通過引入不確定性理論,藉助主關鍵字和與用戶意圖相關的興趣偏好、用戶行為、背景知識和上下文信息等多個方面相關的輔助關鍵字的查詢模式和ORDPATH 編碼技術構建用戶意圖模型,實現了對查詢關鍵字進行語義擴展,得到輔助關鍵字,通過主、輔關鍵字智慧型地識別用戶的查詢意圖,返回帶有用戶偏好的查詢結果。 基於證據理論給出了本體隸屬度值的計算公式,並利用此值擴展了經典的 BM25F 排序算法,得到了滿足用戶需求演化的 MultikeyRank 排序算法,實驗結果表明,此排序算法在 MAP、P@5、P@10 和 P@15四項測評指標上均比 BM25F 算法有一定幅度的提升,在此基礎上,提出了一種基於訊息傳遞機制新的 RDFS 並行推理框架 MPPIE,並進行大量的性能評估和對比實驗,驗證所提方案的正確性和高效性。在執行性能上,較當前性能最好的並行推理引擎平均快 30 倍以上。 本項目在語義大數據的組織和處理方面進行有益的新探索,將有利於其共享和套用。

相關詞條

熱門詞條

聯絡我們