《中文動態語義網構建技術研究》是依託北京大學,由趙東岩擔任負責人的面上項目。
基本介紹
- 中文名:中文動態語義網構建技術研究
- 項目負責人:趙東岩
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
語義網(Semantic Web)是W3C組織提出一項將現有的Web信息結構化的運動。和傳統的Web相比,語義網可以更好地支持語義檢索,提供更準確的查詢結果,因而構建語義網成為了目前計算機領域的研究熱點。構建語義網的一個重要途徑是通過信息抽取技術從非結構化文檔中抽取語義知識,並構建語義關係網。目前的語義網構建的研究,往往忽略了所抽取的語義知識的時效性,以及所抽取語義知識的不確定性特點。因此,本課題擬提出中文動態語義網的構建技術,利用信息抽取技術,從中文百科類網站以及中文新聞頁面中抽取語義數據。具體的,利用中文百科類網站 抽取中文實體的基本屬性信息;利用新聞類網頁數據,抽取實時的新聞語義要素5W1H。同時 對這兩類語義數據進行語義集成,從而形成時效性高的中文動態語義網。另外考慮到,利用信息抽取技術所獲得的語義數據的不確定性特點,設計基於不確定性語義網的檢索算法,從而提高語義檢索的準確性。
結題摘要
結構化知識圖譜已成為諸多人工智慧套用的核心。本項目以中文線上百科和中文新聞等網路文本語料為基礎,採用統計機器學習和深度學習方法從大規模文本語料中萃取中文實體語義關係,構建大規模中文語義知識圖譜,並針對結構化語義知識網的特點研究了面向大規模知識圖譜的圖數據存儲和查詢。項目著力解決了面向多源文本資源的實體信息抽取,實體語義關係抽取,特別是面向網路百科和新聞的動態知識抽取,以及面向大規模動態語義網路的自然語言查詢理解、高效檢索和查詢。課題組研究了基於網路百科和新聞資源的知識抽取技術,從中文百科、維基百科及多種新聞資源共抽取以三元組形式存儲(滿足RDF標準)的知識條目,構建了結構化中文知識庫,PKUBASE,包含高質量可信的中文實體資源約100萬個,三元組知識條目超過2,000萬條。課題組還在基於圖結構的海量語義數據存儲與查詢方面進行了深入的研究,包括基於子圖匹配的檢索,在圖上的關聯檢索和不確定性圖上的檢索算法方面等。同時還利用子圖匹配的方法設計一套面向海量RDF數據的SPARQL查詢系統。此外,課題組還針對面向自然語言問題的圖數據檢索與查詢方法進行了深入研究,並在多項國際權威評測中取得了較好的成績。