Google神經機器翻譯系統

Google神經機器翻譯系統

Google神經機器翻譯系統(英語:Google Neural Machine Translation,簡寫:GNMT),是Google開發的神經機器翻譯(NMT)系統,於2016年11月推出,它使用人工神經網路來提高Google翻譯的流暢度和準確性。Google神經機器翻譯系統通過套用基於實例的(EBMT)機器翻譯方法來改進翻譯質量,系統會從數百萬個示例中學習。翻譯系統提出的系統學習架構首先通過Google翻譯支持的一百多種語言進行了測試。隨著大型端到端框架的發展,系統會隨著時間的推移學習,做出更好,更自然的翻譯。GNMT能夠一次過翻譯整句句子,而不是逐字翻譯。

基本介紹

  • 中文名:Google神經機器翻譯系統
  • 外文名:Google Neural Machine Translation
  • 縮寫:GNMT
  • 開發時間:2016年
  • 開發團隊:Google研究團隊
開發背景,歷史,零點翻譯,GNMT系統出現的問題,總結,

開發背景

機器翻譯的特徵主要表現為自動化、機械性、以語句為翻譯單位、二度摹仿和語境制約有限五大特徵,且機器翻譯與人工翻譯之間的關係並非矛盾、零和的關係,而是相輔相成、相互促進的關係。進入90年代之後,機器翻譯開始迅速發展,而谷歌翻譯是機器翻譯的代表。語言中出現一些變化、新詞或者外來詞時,谷歌翻譯可以通過升級、完善其語料庫,增加對應的新詞、外來詞文本,使譯文適應語言的發展,十分便利。

歷史

谷歌大腦項目於2011年由Google研究員傑夫·迪恩,格雷戈·科拉多和史丹佛大學計算機科學教授吳恩達Google X秘密實驗室成立。吳恩達的工作令Google和史丹佛大學獲取了突破。
2016年9月,Google研究團隊宣布開發Google神經機器翻譯系統,同年11月,Google翻譯停止使用其自2007年10月以來一直使用的專有統計機器翻譯(SMT)技術,開始使用神經機器翻譯(NMT)。
Google翻譯的NMT系統使用了一種能夠深度學習的大型人造神經網路。GNMT使用通過使用數百萬更廣泛的來源來推斷出最相關的翻譯,提高翻譯的質量。 然後將結果重新排列並組成基於人類語言的語法翻譯。 GNMT提出的系統學習架構通過Google翻譯支持的語言進行了測試。 GNMT沒有創建自己的普遍語言,而是針對許多語言之間發現的共同點,因此心理學家語言學家比計算機科學家對此更感興趣。2016年,Google翻譯的其中八種語言開始嘗試使用此系統,包括英語法語德語西班牙語葡萄牙語中文日語韓語土耳其語。2017年3月,增加了俄語印地語越南語。同月,因谷歌翻譯社群的幫助下,添加了對希伯來語阿拉伯語的支持。2017年4月底,增加了9種印度語言的支持,包括印度語孟加拉語馬拉地語古吉拉特語,旁遮普語,泰米爾語泰盧固語馬拉雅拉姆語和康納達語。

零點翻譯

GNMT系統改進了以前的Google翻譯系統,GNMT系統可以處理“零點翻譯”,即直接將一種語言翻譯成另一種語言(例如中文日文)。以前Google翻譯會先將源語言翻譯成英文,然後將英文翻譯成目標語言,而不是直接從一種語言翻譯成另一種語言。
GNMT系統和英語專業學生翻譯效果對比及分析
讓谷歌神經機器翻譯系統系統和英語專業學生分別翻譯兩篇英文,之後對兩者的翻譯效果進行對比。英文段落翻譯中包含全國翻譯專業資格考試英語筆譯三級樣題一篇,529字,2016年12月全國大學英語四級考試閱讀理解段落一篇,211字。2017年8月11日,在採用GNMT系統的https://translate.google.cn/網站上獲得譯文;參與翻譯測試的學生為瀋陽市4所高校4個班級英語專業大三的學生。

GNMT系統出現的問題

(1)只翻譯出字面含義,譯文並未結合整個句子的含義。如,原文為:Freed by warming,waters once lockedbeneath ice are gnawing at coastal settlementsaround the Arctic Circle.GNMT系統的譯文是:通過變暖釋放,一旦被冰封鎖住的水域就在北極圈周圍的沿海定居點處啃咬。free確實有釋放的含義,但硬生生地翻譯為“通過變暖釋放”會給讀者一頭霧水的感覺,應為“氣候變暖,原來壓在冰下的水自由流動”。同樣,are gnawing at翻譯為“啃咬”並不合適,翻譯為“侵蝕”較為貼切。
( 2 ) 句子理解錯誤,導致翻譯出錯。如,原文為:Eventually,homes will be lost as more ice meltseach summer,and maybe all of Bykovsky,too.GNMT系統的譯文是:最終,隨著每年夏天更多的冰融化,也許全部Bykovsky也將失去家園。譯文中,“homes willbe lost”(將失去家園)並未譯出,homes will be lost和後面的 Bykovsky 聯繫在一起,譯為“Bykovsky也將失去家園”,合理的譯文應該為“最終家園將會消失,整個Bykovsky也將不復存在”。
(3) 譯文出現漏譯原文內容的情況。如,原文為:A changing Arctic is felt there,too,though inanother way.GNMT系統的譯文是:不過,北極的變化也是如此。原文中“felt”,“in another way”並沒有譯出。這句應譯為“北極的變化在這裡也能感受到,不過方式不同”。

總結

  • 譯文的定語過長,不符合漢語的表達習慣
  • 對原文的理解有誤
  • 標點不夠規範
對機器翻譯取代人工翻譯的擔心是沒有必要的,機器翻譯的文本類別有限,當前來看結果也不甚理想,遠沒有達到令人滿意的程度。但是,以GNMT系統為代表的神經機器翻譯的發展,為今後人機結合的翻譯提供了必要的保障。GNMT系統的翻譯結果可以作為英語專業學生提升翻譯水平的一面鏡子,查找自身的不足。在教學中對於要逐步增加中國文化的滲透,從而使當今學生在從事英語翻譯的過程中,自然擔當起祖國優秀文化傳播者的角色,讓世界了解中國,讓中國走向世界。GNMT系統和英語專業學生的翻譯水平的共同提高,必然會為譯文質量和效率的提升打下實基礎。

相關詞條

熱門詞條

聯絡我們