基於統計機器翻譯和自動文摘的查詢擴展研究

基於統計機器翻譯和自動文摘的查詢擴展研究

《基於統計機器翻譯和自動文摘的查詢擴展研究》是依託昆明理工大學,由李衛疆擔任項目負責人的地區科學基金項目。

基本介紹

  • 中文名:基於統計機器翻譯和自動文摘的查詢擴展研究
  • 項目類別:地區科學基金項目
  • 項目負責人:李衛疆
  • 依託單位:昆明理工大學
項目摘要,結題摘要,

項目摘要

信息檢索麵臨的一個主要問題是查詢詞和文檔詞之間的語義鴻溝,而自然語言 內在的模糊性加劇了這個問題。因此需要從查詢擴展和自然語言處理技術入手來解決這個問 題。大多數檢索系統提供的查詢擴展項都是基於共現的方法產生的,不具有語義分析的能力。 而詞語以上級的自然語言處理技術還沒有真正用於檢索模型中。本課題為解決上述問題,一 方面將統計機器翻譯模型引入信息檢索的查詢擴展,提出把信息檢索的查詢擴展研究中尋找 查詢擴展詞的問題當成是翻譯問題。通過短語到短語的整句翻譯模型,計算短語到短語的翻 譯機率,並以此翻譯機率為基礎計算短語之間的相關度作為依據來進行查詢擴展。另一方面 著重研究把文摘模型融合到檢索模型,通過引入Dirichlet分布建立文摘模型和信息檢索的 有機統一的檢索模型。本課題力爭在自然語言處理與信息檢索結合的理論和方法上有所創新 和突破,具有重要的學術意義。

結題摘要

在搜尋引擎等實際的信息檢索套用中,用戶提交的查詢請求通常只包含很少的幾個關鍵字,這會引起相關文檔和用戶查詢之間的詞不匹配問題,對檢索性能有比較嚴重的負面影響。如何解決詞不匹配問題成為信息檢索領域中的一個十分重要的研究課題。查詢擴展是解決詞不匹配問題的有效的技術手段。 本課題利用統計機器翻譯技術來彌補查詢詞與文檔詞之間的語義鴻溝。利用一個整句的意譯器來對整個查詢句的上下文生成同義詞;通過查詢句-文檔句對訓練生成的整句的翻譯模型,利用該模型計算查詢詞到文檔詞的翻譯機率,以此作為查詢詞與文檔詞之間的關聯度依據進行查詢擴展。 本課題開展了面向檢索任務的文摘方法研究。偏向查詢的文摘是在文摘中反映查詢中表示的用戶信息需求。通過度量識別用戶的相關文檔準確性,在基於任務的環境下評價文摘的效能。 本課題研究了文摘模型與檢索模型的內在聯繫,以Dirichlet分布分析為依據設計文摘模型和檢索模型中文檔和查詢的表示模型,提出Dirichlet分布下的統一的文摘檢索模型。 研究目標是利用自然語言處理詞語以上級,例如統計機器翻譯、自動文摘,開展信息檢索與自然語言處理融合的基礎性理論的探索性研究工作。
check!

熱門詞條

聯絡我們