《基於形態和多詞的有限語料蒙漢互譯調序最佳化方法》是依託中國科學院合肥物質科學研究院,由陳雷擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於形態和多詞的有限語料蒙漢互譯調序最佳化方法
- 項目類別:青年科學基金項目
- 項目負責人:陳雷
- 依託單位:中國科學院合肥物質科學研究院
項目摘要,結題摘要,
項目摘要
蒙漢雙語存在形態和語序兩方面的顯著差異,譯文語序混亂是蒙漢互譯系統的主要錯誤之一。基於大規模語料進行統計訓練的調序方法在目前蒙漢語言資源有限的條件下所取得的效果有限。.針對上述問題,本項目結合語言學知識和統計方法,將在不同語言單位粒度上挖掘有限蒙漢語料所蘊含的雙語知識,對蒙漢互譯系統的調序進行最佳化,擬重點開展:(1)研究基於小規模人工切分語料,以增強特徵模版整合有監督和無監督的方法,實現半監督的切分以獲取蒙古語細粒度的形態信息;(2)研究基於形態句法結構模式與多重過濾的多詞表達式抽取方法,實現在有限蒙漢語料中挖掘粗粒度的雙語信息;(3)研究分別利用形態信息和多詞表達式對蒙漢互譯系統的調序進行最佳化,指導調序方向,增強長距離調序能力,最終提高譯文質量。通過以上研究,探索在有限語料條件下結合語言學知識和統計方法高效挖掘雙語知識以最佳化系統調序能力的技術,為我國語言資源有限的民漢機器翻譯研究提供技術參考。
結題摘要
本項目針對漢蒙雙語的形態和語序差異對機器翻譯譯文質量造成影響的問題,尤其在目前有限的蒙漢雙語語料條件下,開展了以下研究: 第一,半監督的蒙文形態切分方法。首先研究利用基於人工切分標註語料的有監督形態切分來獲取恰當的特徵集合,再結合不含人工切分標註的語料,根據蒙古語的語言特點,定義增強特徵集合,整合有監督、無監督兩種切分方法,實現半監督的蒙文形態切分,最後利用半監督的形態切分方法獲取有限語料中蒙文的形態信息,實現高效的蒙文形態切分,切分準確率最高達到97.9%; 第二,雙語多詞表達式抽取方法。對於先對齊後抽取的方法,首先尋找統計信息過濾與語言知識過濾方法的最佳組合與疊代次數,以便進一步完善雙語多詞表達式抽取效果;對於先抽取後對齊的方法,繼續結合蒙古語語言學知識,探討蒙古語的形態句法結構模式,深入研究在抽取後如何完成雙語多詞表達式的對齊。提出了適用於有限語料條件下的蒙漢雙語多詞表達式抽取方法; 第三,融合形態信息與多詞表達式的翻譯系統構建。首先設計合理的實驗方案,以人工和自動兩種方式對比分析兩種多詞表達式抽取方法的優劣,再探索兩種多詞表達式抽取方法各自以不同方式套用於蒙漢互譯系統的效果,以實際的實驗結果來尋找抽取方法與套用方法的最佳結合點,最後開展了綜合利用形態信息與多詞表達式的系統性實驗,提出了在有限語料條件下提高蒙漢互譯系統譯文質量的方法,最高提高了譯文質量1.54個BLEU值。 以上理論技術與方法模型,可為我國資源稀缺的民族語言有關的機器翻譯系統構建研究提供借鑑與參考。