基於複雜網路的中文文本語義相似度研究

基於複雜網路的中文文本語義相似度研究

《基於複雜網路的中文文本語義相似度研究》是依託西安電子科技大學,由劉懷亮擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於複雜網路的中文文本語義相似度研究
  • 項目類別:面上項目
  • 項目負責人:劉懷亮
  • 依託單位:西安電子科技大學
中文摘要,結題摘要,

中文摘要

為解決海量信息檢索中知識匱乏、傳統向量空間模型表徵文本時語義缺失問題,針對中文文本重意合、輕形式的語言特點,本項目擬將複雜網路理論引入到中文文本語義相似度計算研究中,期望基於複雜網路建立海量文本庫社區網路模型,研究其文本聚合機制、社區劃分算法、社區發現算法等,以此為基礎將語義關聯文本以知識地圖形式進行呈現;通過構建單一文本加權複雜網路模型對其進行語義表示,採用基於本體的詞語相關度衡量文本特徵詞間語義關係,以此代表特徵詞連線邊的權重,從而保留文本的語義信息及結構信息;利用複雜網路的網路特性對文本進行結構分析,以節點綜合特性為依據,提取能夠反映文本主題的關鍵字作為文本特徵詞,實現對文本複雜網路的最佳化重構;通過引入詞義消歧技術對特徵詞節點進行語義標註,結合最大公共子圖理論提取文本的公共部分以衡量文本間的相似度,提出基於複雜網路的中文文本相似度算法,從而為基於語義層次的中文文本處理提供支持。

結題摘要

為解決向量空間模型中文本結構和語義信息缺失,知識信息資源共享機制差的問題。將複雜網路理論引入到中文文本分類過程中,以詞語間的詞同現關係為基礎構建單一文本加權複雜網路來表示中文文本,首先提出了兩種方法對海量文本庫中的社區進行檢測以幫助挖掘複雜網路的結構和功能;進而利用構建的文本複雜網路模型來保留詞語間的語義相關信息,利用其能夠發現重疊簇的特性,以解決標籤的語義模糊性,同時有效緩解了數據稀疏性問題。通過複雜網路的小世界特性和改進的TFIDF特徵權重計算方法進行文本特徵選擇,利用節點綜合特性提取反映文本主題的關鍵字作為文本的特徵詞,以最佳化文本網路結構,降低文本網路複雜性。引入知網和維基百科在複雜網路表示文本表示下進行文本相似度計算,以此減少語義流失。運用開放的語料庫進行實驗,結果表明這些方法都有效的提高了文本分類精度並實現了語義層次的文本信息的深度挖掘。

相關詞條

熱門詞條

聯絡我們