跨語言信息檢索中的機器翻譯研究

跨語言信息檢索中的機器翻譯研究

《跨語言信息檢索中的機器翻譯研究》是依託大連理工大學,由黃德根擔任項目負責人的面上項目。

基本介紹

  • 中文名:跨語言信息檢索中的機器翻譯研究
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:黃德根
項目摘要,結題摘要,

項目摘要

網際網路信息在全球範圍共享的主要障礙是多語言問題,跨語言信息檢索(CLIR)是解決該問題的有效方法之一。但是,現有的跨語言信息檢索的精確率過低,沒有達到實用的水平,提高跨語言信息檢索系統性能的關鍵是提高檢索語句的翻譯精度。本項目從中英文兩種語言的信息檢索入手,研究跨語言信息檢索中機器翻譯的若干關鍵技術。針對跨語言信息檢索及機器翻譯的特點,從三個方面提高機器翻譯的精確率:一是考慮從單語檢索結果中提取出檢索語句本身的多種詞法信息,為檢索語句的翻譯提供細粒度詞法信息,從而提高檢索語句的翻譯精度;二是提出一種融合短語結構和句法功能的功能短語,把對翻譯要素的考慮提前到句法分析階段,提高句法結構歧義的消歧率和機器翻譯的精確率;三是提出可嵌套模板函式和統計方法等多模型結合的機器翻譯方法,提高含複雜結構的句子或短語的翻譯精度。其中,後兩種方法對一般機器翻譯的研究也具有重要意義和套用價值。

結題摘要

圍繞跨語言信息檢索中機器翻譯的若干關鍵問題展開了深入研究,主要研究內容包括漢語自動分詞與詞法分析、跨語言信息檢索的語言資源建設、短語識別算法、雙語命名實體和術語的自動挖掘、機器翻譯模型研究等相關研究。取得研究結果:(1)提出了一種新的句法結構歧義消解方法,將英漢機器翻譯中的英語句法結構歧義轉化為功能名詞短語的識別,並提出一種統計與規則結合的功能名詞短語識別方法;(2)提出了統計與規則融合的系列算法,並在名詞短語識別、雙語命名實體挖掘、時間表達式識別、模糊限制信息檢測、新詞識別等自然語言處理任務上獲得了較優的實驗結果;(3)提出了一種基於漢字與音節轉換機率的音譯算法,建立了漢英雙向音譯模型,並將音譯模型和基於短語的統計機器翻譯融合,顯著提高了複雜結構短語和句子的翻譯精度。研究結果表明:功能名詞短語套用到機器翻譯領域,可以消除部分複雜名詞短語的結構歧義,從而達到提高現有機器翻譯系統性能的目的。

相關詞條

熱門詞條

聯絡我們