基於主題形式概念分析的文本處理關鍵技術研究

《基於主題形式概念分析的文本處理關鍵技術研究》是依託北京理工大學,由施重陽擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於主題形式概念分析的文本處理關鍵技術研究
  • 依託單位:北京理工大學
  • 項目負責人:施重陽
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

針對目前基於形式概念分析的文本處理主要使用關鍵字作為形式背景屬性,屬性之間存在關聯、重疊、重複且屬性內容不區分主題,導致無法滿足特定目標或主題的文本挖掘需求,以及規模化文本概念格構建時間長、單格耗費空間多等問題,本課題研究引入LDA主題模型構建形式背景,設計一個基於主題形式概念分析的文本處理模型。首先,利用主題比關鍵字信息粒度大且更能表達文本語義信息的優點,使用機率主題模型計算並構成文本數據的形式背景,設計形式概念在概念格上下文中的主題聯合分布模型,表達形式概念的典型性或重要性;其次,設計一個分散式概念格構建模型,按主題對形式背景進行分解,對分解背景構成的概念格進行多格同時合併,達到多主題概念融合,並能夠提升概念格構建效率;最後,結合學術論文檢索,使用主題形式概念分析模型,提出一種基於查詢結果集的多文檔摘要構建框架,以滿足特定主題要求的摘要內容表達及覆蓋。

結題摘要

由於傳統的形式概念分析通常使用單值形式背景進行數據分析,無法反映現實數據屬性的複雜性,本課題研究將LDA模型引入形式概念分析,針對文本數據處理,構建一個文本主題形式概念分析模型,依靠此模型,研究解決前文提出的形式概念分析在文本處理中出現的若干問題,以幫助形式概念分析在文本處理中有更廣泛的套用。包括:提出一個文本數據模糊形式背景生成模型,構建主題模糊概念格,設計形式概念的主題分布數學模型,以表達形式概念在概念格上下文中的典型性或重要性,可用於精煉文本概念格,挖掘核心主題知識;針對規模化文本數據,設計基於主題的形式背景分解和概念格合併算法,降低概念格構建過程的時間和空間耗費;最後,針對學術論文檢索結果集,利用主題模糊形式概念分析模型,提出一種論文摘要和檢索框架。結合上述研究內容,本課題獲得的研究成果在CCF頂級期刊TKDE,中科院SCI 2區期刊EAAI,CCF B類會議ECAI等頂級期刊和會議上發表,累計6篇論文(第一標註),並獲批專利1項,申請專利1項。文本主題模糊概念格模型提供了一個基於LDA主題模型生成模糊形式背景的系統性途徑,可以合理的利用主題來組織形式背景並構建概念格,符合用戶對特定信息的要求,形式背景的分解和概念格合併對概念格構造效率的提升可以使形式概念分析在文本處理套用中更具可操作性。本課題的研究成果可用於利用形式概念分析進行知識地圖構建、文本摘要生成以及信息檢索中的請求擴展和個性化推薦等方面,具有較好的研究前景。

相關詞條

熱門詞條

聯絡我們