《基於中心擴展對齊的漢-英統計機器翻譯研究》是依託哈爾濱理工大學,由張春祥擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於中心擴展對齊的漢-英統計機器翻譯研究
- 項目類別:青年科學基金項目
- 項目負責人:張春祥
- 依託單位:哈爾濱理工大學
項目摘要,結題摘要,
項目摘要
本課題研究統計機器翻譯的知識獲取與解碼技術。提出了中心擴展的短語對齊方法,擺脫了漢、英之間語法異構性的制約。同時考慮源語言滿足句法約束和不滿足句法約束的短語翻譯對,以覆蓋更多的語言現象。提高辭彙覆蓋度,細化語義分類體系,利用語義知識、句法和統計信息來增加譯文中心的識別率。深度挖掘漢、英語言學之間的對等關係,使用句法、詞性、詞形、語義和長度等屬性來定義雙語評價特徵,揭示評價特徵與短語翻譯對自身特性之間的關係。在輸入句子的句法樹上,以調序機率和插入機率為基礎來構建譯文調序模型,使調序過程可以充分地利用句法邊界信息。結合雙語評價特徵,使用最大熵算法來選擇譯文路徑,以綜合考慮多種上下文相關信息。力求降低搜尋解碼空間,提高機器譯文輸出質量,為基於句法的統計機器翻譯提供一個新的解決思路。
結題摘要
本項目研究了統計機器翻譯的知識獲取與解碼技術。對短語對齊的相關問題進行了探討,設計了短語翻譯對的標註方法。挖掘漢、英語言學之間的對等關係,使用詞形、頻度和長度等屬性來定義雙語評價特徵,包括:短語譯文直譯率、短語翻譯機率和源語言-目標語短語長度差異,以衡量漢語短語和英語短語之間的互譯對等性。在短語翻譯對訓練數據集上,使用N-Best策略來衡量雙語評價特徵的性能。定義了漢語短語的譯文中心,給出了譯文邊界的確定算法。在確定漢語短語的譯文中心時,本項目採取詞典對齊、譯文相似度計算、語義相似度計算和統計方法循序漸進的方案。在此基礎之上,提出了中心擴展的短語對齊方法,即以譯文中心為基礎,不斷向左右兩側連續擴展目標語單詞,以生成源語言短語的目標語候選譯文。同時,以短語譯文直譯率為消歧特徵,從候選譯文中選出一個最為合理的。在該方法中,僅僅使用了漢語句法分析器和漢-英辭彙對齊工具,以擺脫漢、英之間語法異構性的制約。在雙語評價特徵的基礎上,分別使用多重線性回歸模型、支持向量機模型和感知器模型來消除自動獲取的短語翻譯對中的噪聲。提出了一種利用雙語評價特徵來進行譯文評價的短語翻譯對主動獲取方法,通過選擇有代表性的短語翻譯對以達到減少人工標註數據的目的。使用標註後的短語翻譯對對SVM分類器進行訓練,實驗結果表明:使用這種方法,在分類器性能基本沒有下降的前提下,可以降低人工標註數據量。本項目從短語翻譯對中抽取漢-英語序對應關係,提出了一種利用語言學特徵和錯誤驅動學習相結合的源語言-目標語對等模式獲取方法。使用對等模式來改變漢語句法樹的結構,使其生成的譯文符合英語語序要求。實驗結果表明:使用這種方法對漢-英雙語句對中的漢語句子進行調序,詞鏈交叉率有所降低。本項目通過引入對等模式,將整個翻譯過程拆分為兩個不同的部分,即譯文調序過程和譯文選擇過程。整個解碼過程變為對調序後的漢語句子實施辭彙翻譯的過程。以此為基礎,建立了統計解碼模型。實驗結果表明:該方法使譯文輸出質量有所上升。