《基於PAM機率主題模型的本體概念及層次結構學習研究》是依託同濟大學,由王俊麗擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於PAM機率主題模型的本體概念及層次結構學習研究
- 項目類別:青年科學基金項目
- 項目負責人:王俊麗
- 依託單位:同濟大學
中文摘要,結題摘要,
中文摘要
作為一種能在語義和知識層次上描述概念模型的建模工具,本體是語義Web中語義描述的核心和關鍵。針對本體學習中存在的兩大關鍵問題:本體概念的提取和概念間層次結構的獲取,本項目在深入研究PAM (Pachinko Allocation Model)機率主題模型的構建、計算和測試等理論和方法基礎上,開展基於PAM的本體概念及層次結構學習模型(OL-PAM)建模理論研究,包括OL-PAM模型的潛在主題空間生成機制、基於Gibbs Sampling的OL-PAM模型的參數估計方法、OL-PAM模型的推理算法和統計特徵相似度度量方法等理論和關鍵技術研究,同時,基於OL-PAM模型提出並設計概念疊代生成算法和概念間層次關係獲取方法,進而通過模擬實驗對生成的本體概念及層次結構的性能進行評價與分析,以期拓展本體學習理論,為實現領域本體自動構建提供理論依據和支撐技術。
結題摘要
本項目依據項目計畫任務書,著重針對本體學習過程中的概念層次結構學習和屬性學習兩個關鍵問題,在研究術語之間的潛在語義基礎上,開展了適用於本體學習的PAM(Pachinko Allocation Model)機率模型建立、Gibbs抽樣方法參數估計、基於Web的本體概念屬性提取方法和基於時序信息的主題跟蹤與演化分析等理論和關鍵技術研究。研究工作中取得的重要進展包括: 1、針對術語之間的潛在語義,開展了機率模型潛在主題空間生成機制、建立PAM模型、Gibbs抽樣參數估計,並對建立的模型進行了訓練和評價,實驗使用GENIA語料庫,由2000篇MEDLINE摘要組成,具有168384個生物學術語,實驗結果表明,該模型能夠很好地學習得到主題以及主題間相關性。 2、機率主題模型是結合機率論和圖論的圖模型表示方法,依據機率模型的文檔生成過程及其逆過程,可以統計推斷得到主題信息。探討了PAM模型的框架、PAM四層模型結構以及PAM的改進模型,包括HPAM和NPB PAM,並對它們的性能進行了分析對比,探討了PAM模型的發展趨勢。 3、在項目研究過程中,提出了基於PAM的本體概念及層次學習模型,將概念層次學習問題描述並轉化為幾個子問題,即給定關於某專業領域的一組文檔集合,通過預處理技術獲取領域術語集;計算文檔集關於術語集的詞頻矩陣;統計推斷出術語及其關聯機率特徵項;並在此基礎上,通過語義相似度計算來獲取抽象描述文檔集的一組概念的集合。通過在來源於Twitter的微博信息概念挖掘,取得了很好的效果。 4、針對本體概念屬性提取問題,提出了基於Web的本體概念屬性提取模型,並設計了一種基於語言模式、Web語料庫和LDA的混合本體概念屬性學習算法,根據已建立的文本集,利用LDA模型提取的屬性詞,對候選概念屬性庫進行修剪和合併,生成最終的概念屬性集合。通過模擬實驗,根據準確率、召回率和F值等指標對算法的性能進行評估分析。 5、結合新聞報導在時序上表現出的分布信息,將主題模型套用到新聞事件的主題跟蹤和演化分析。利用K-Means聚類算法將語料庫按時間劃分成子語料庫;然利用主題模型依次對每個子語料庫建模並得到其主題分布信息;最後通過計算相鄰子語料庫中兩兩主題之間的Jensen-Shannon距離,獲取該事件的主主題和輔助主題,刻畫新聞預料中事件發展的主線以及在各個階段爆發出來的新的關注點。