《海量RDF數據探索式搜尋關鍵技術與系統研究》是依託中國人民大學,由陳躍國擔任項目負責人的面上項目。
基本介紹
- 中文名:海量RDF數據探索式搜尋關鍵技術與系統研究
- 項目類別:面上項目
- 項目負責人:陳躍國
- 依託單位:中國人民大學
項目摘要,結題摘要,
項目摘要
隨著越來越多的語義網知識庫使用資源描述框架RDF來表達信息實體及它們之間的聯繫,出現了一大批海量的RDF數據集。利用RDF數據管理系統,人們可以查詢、搜尋、分析和發現海量RDF數據中蘊含著的豐富語義信息。然而,當前RDF數據查詢檢索普遍採用一次性的提交查詢-返回結果的互動模式,因查詢語言表達能力不足或易用性差等問題,滿足不了用戶在沒有明確的查詢目標前提下互動性的探索和瀏覽RDF資料庫的需求,無法支持用戶隨著互動過程而發現和學習海量RDF數據中有趣的知識內容和結構。為此,我們借鑑探索式搜尋的概念,提出在存儲海量RDF數據的資料庫上支撐探索式搜尋的互動模型和關鍵技術。我們的研究將圍繞探索式搜尋的基本原語、查詢語言、互動界面、查詢最佳化和處理等關鍵技術展開。此外,我們將在集群環境下,研究高性能的海量RDF數據關聯分析處理技術,實現支撐海量RDF數據的探索式搜尋的資料庫原型系統。
結題摘要
本項目圍繞海量RDF數據的探索式搜尋技術展開研究,力圖為大規模語義網數據提供除了關鍵字檢索(包括自然語言問答)和結構化檢索之外的數據訪問途徑,應對用戶在知識圖譜上信息需求不明確的場景。幫助用戶提供數據探索式搜尋發現問題和新的搜尋目標的途徑,為知識圖譜大數據提供探索式搜尋途徑。研究內容圍繞海量RDF數據上的關聯分析核心算法、實體搜尋技術、錯誤探測與知識修復技術、互動界面設計與原型系統實現等四個方面展開。項目總體研究上很好地達到之前設定的研究目標,既有很多高水平學術論文發表,又做出了RDF數據探索式搜尋系統SEED的系列成果,先後在資料庫、人機互動、概念模型等國際高水平會議上發表論文、演示了SEED系統各階段的成果。該系統能夠支持大規模語義網RDF數據上進行探索式的分析和搜尋任務,進一步套用在金融欺詐行為識別、製造大數據故障根因分析等領域。在銀行領域的套用還獲得了2017年教育部科技進步一等獎。 我們提出的方法有效地解決了利用語義特徵對實體集合進行擴展所面臨的兩個關鍵挑戰:1)每個實體包含豐富的語義特徵,如何從大量的語義特徵中選取適合的語義特徵對實體進行排序;2)RDF知識圖譜雖然具有豐富的語義,但仍然存在大量的語義缺失現象,如何解決RDF知識圖譜存在語義缺失的問題。基於公開的數據集和測試集,大量的對比實驗表明我們提出的方法在效果方面顯性地優於已知的方法。相關理論成果發表在SIGIR 2017和JWS 2018上。這方面的研究成果幫助我們在2018年成功地申請到了國家發明專利一項。圍繞著本項目所設定的研究目標,我們提出一種面向RDF數據進行探索式搜尋的互動模式與其對應的基本操作。基於上述所提出的互動模式,提出了幾個關鍵技術方案,包括數據管理、查詢處理、互動界面設計與探索式評估方法等。此外,基於上述關鍵技術,實現了多個原型系統,該系統能夠支持大規模語義網RDF數據上進行探索式的分析和搜尋任務。上述研究成果分別以演示視頻、高水平論文、開原始碼等形式發表。 我們將研究成果在網際網路金融領域的欺詐行為識別、智慧型製造領域的根因分析等方面開展套用探索。我們採用RDF的形式構建專業領域的知識圖譜,然後通過探索式搜尋的方式進行搜尋與分析,逐步地發現網際網路金融場景下的欺詐行為和追溯智慧型製造場景下的故障根源。