融合語義相似性和關聯性的深層主題模型研究

《融合語義相似性和關聯性的深層主題模型研究》是依託北京理工大學,由高揚擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:融合語義相似性和關聯性的深層主題模型研究
  • 依託單位:北京理工大學
  • 項目負責人:高揚
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

在當今信息過剩的時代,傳統基於淺層語義分析手段所得到的信息檢索系統已逐漸難以滿足人們獲取精準信息的強烈需求,這就要求機器做能到深度準確地理解語義信息。主題模型的研究近年受到廣泛的關注,在大數據環境下它能體現強大的語義類別屬性,且系統擴展性很強,已成功運用於數據挖掘、機器學習和自然語言處理等領域。但其模型初始化假設為每個單詞是獨立分布存在的,這與實際情況不符,它忽略了詞語之間的相似性和關聯性。基於神經網路語言模型學習而成的辭彙向量化表示可以將語義相似度簡化為簡單的加減運算,但是它在多義表達和全局分析能力較弱。此外,通過關聯模式挖掘技術可以提取出語義的關聯性,產生不同形式的模式集合可以形成語義層級結構。因此,本課題將綜合考慮語義的主題類別性、相似性、關聯性,創新性地定義基於主題的深層語義模型,最終將其套用於自然語言處理領域的自動問答系統和文摘系統,驗證其有效性和普遍適用性。

結題摘要

傳統基於淺層語義分析手段以無法滿足當今海量數據下人們對精準信息獲取的需求。本項目通過研究深度語義表示模型,提取重要信息的摘要系統以及關鍵信息引導的文本生成來滿足用戶對精準信息的需求。本項目研究主題增強的語義表示,深入挖掘突出類別性和關聯性特徵的統一聯合語義表示框架和信息抽取技術。此外,該研究引入知識信息,提出一種新的結合知識結構聚散度的語義表示模型。這些模型在信息檢索、問答系統以及文本摘要系統得到了有效的驗證並達到國際先進水平。抽取式的信息獲取方式仍然存在信息冗餘,為了對海量信息進一步精簡和重組,該項目還深入研究了基於文本自動生成的摘要技術,提出了融合全局概念主題的生成式摘要模型,並且提出了概念指針網路,將更具有概括能力的語言提煉出來完成摘要任務。生成式摘要的效果在通用的CNN/DailyMail、NYT、GigaWord數據上達到國際領先水平。項目整體從語義表示、信息抽取、文本生成三方面逐步挖掘深度語義信息,抽取用戶所需並生成全新文本作為輸出,具有重要的研究意義,並通過問答系統驗證其可行性和套用價值。

相關詞條

熱門詞條

聯絡我們