潛在語義分析中特徵傳遞最佳化技術的研究

潛在語義分析中特徵傳遞最佳化技術的研究

《潛在語義分析中特徵傳遞最佳化技術的研究》是依託瀋陽航空航天大學,由蔡東風擔任項目負責人的面上項目。

基本介紹

  • 中文名:潛在語義分析中特徵傳遞最佳化技術的研究
  • 項目類別:面上項目
  • 項目負責人:蔡東風
  • 依託單位:瀋陽航空航天大學
項目摘要,結題摘要,

項目摘要

潛在語義分析是一種無指導的特徵抽取方法,該方法通過文檔間詞語共現的傳遞關係,改善了自然語言理解中對同義和多義等問題的處理能力,從語義層次上推動了信息檢索、文本分析等多個研究領域的發展。但目前的潛在語義分析研究中,對特徵傳遞關係的質量評價、空間選擇等關鍵問題缺乏深入的研究和探討。因此,本課題從改進特徵傳遞質量的角度出發,提出了潛在語義分析最佳化的研究思路,重點研究改善特徵傳遞質量的最佳化方法,探討利用分析過程中的中間矩陣進行多重潛在語義分析的最佳化技術。同時,考慮到與先驗知識和現有文本分析技術的結合,提出了基於偽文檔的潛在語義分析方法,滿足了潛在語義分析在人工指導和時效性方面的實際需求;採用文本分割、聚類等技術細化了特徵間共現粒度,為構建更為良好的特徵傳遞關係提供了更有效的融合策略。本課題的研究將為潛在語義分析的研究提供新的研究思路,其研究成果也將為語義層次的信息處理技術提供新的技術基礎。

結題摘要

課題圍繞潛在語義分析的特徵傳遞關係的最佳化問題,分別從特徵-文檔矩陣的最佳化、傳遞關係的最佳化、模型融合的最佳化三個方面進行了研究工作,充分挖掘自然語言自身的研究特點,通過特徵選擇、文本分割、信息抽取等技術手段完善傳統潛在語義分析模型。課題按研究計畫,圍繞基於偽文檔的潛在語義分析最佳化方法,重點開展了偽文檔的抽取和構成方面的研究工作,特別是提出了在組塊層次標註基礎上套用馬爾可夫邏輯網分層次進行中文專利開放式實體關係抽取的方法,深層次地挖掘信息背後的語義信息,這種統計推理方法能較為靈活地處理同義結構,並作為重要的傳遞關係以偽文檔的形式可有效改進潛在語義分析的性能。同時,本研究內容也是首次開展中文的開發式信息抽取技術的研究,相關研究結論為本技術的後期發展提供重要的參考,建立的中文專利依存樹庫也將為其他面向中文專利文本的分析技術提供基礎。基於主題的潛在語義分析方法,以文檔內的子主題識別和劃分為出發點,提出了子語段和偽語段兩種構成方法,分別利用自然標記、文本分割、特徵分布等信息進行語段構成,力求從多角度構建合理的共現單元,最終利用系統融合的技術方法進行各語段潛在語義模型的融合,實現總體性能10%以上的性能提高。隨著上述的研究深入,在資源和主題文檔的不斷增加的情況下,潛在語義分析方法面臨模型訓練的效率問題,因此,課題在潛在語義分析模型最佳化方法中提出了基於增廣空間的潛在語義分析最佳化方法,將不同語料中獲得的潛在語義空間進行融合,形成特徵潛在語義的增廣空間,而後在此增廣空間中進行原始語料到潛在語義空間的映射,在確保傳統方法性能的基礎上,將原始的模型訓練方法轉換為不同子集的訓練過程,提高模型的套用價值。與模型本身的最佳化不同,課題研究中還採用了系統融合的技術手段,進一步探索從不同角度、不同共現空間進行潛在語義分析模型的構建,並在結果融合中獲得了較好的性能表現。為了保證上述研究工作能夠進行科學合理的評價,課題的研究成果均選擇專利文獻的分類任務(NTCIR國際評測)作為評測標準,確保上述最佳化工作對系統性能的真實貢獻。最終,在基於主題的潛在語義分析方法中進行系統的有效融合,實現了專利分類準確率10%以上的最佳化提升。

相關詞條

熱門詞條

聯絡我們