機器翻譯簡介,簡 史,發展道路,開創期,受挫期,恢復期,新時期,翻譯過程,翻譯簡史,機譯系統,系統劃分,辭彙型,語法型,語義型,知識型,智慧型型,基於統計,人工神經網路,線上機譯,全文翻譯,線上翻譯,漢化類翻譯,詞典工具,質量問題,誤差難免,瓶頸所在,
機器翻譯簡介
機器翻譯技術的發展一直與計算機技術、資訊理論、語言學等學科的發展緊密相隨。從早期的詞典匹配,到詞典結合語言學專家知識的規則翻譯,再到基於語料庫的統計機器翻譯,隨著計算機計算能力的提升和多語言信息的爆發式增長,機器翻譯技術逐漸走出
象牙塔,開始為普通用戶提供實時便捷的翻譯服務。
簡 史
發展道路
機器翻譯的研究歷史可以追溯到 20 世紀三四十年代。20世紀30年代初,法國科學家G.B.阿爾楚尼提出了用機器來進行翻譯的想法。1933年,蘇聯發明家П.П.特羅揚斯基設計了把一種語言翻譯成另一種語言的機器,並在同年9月5日登記了他的
發明;但是,由於30年代技術水平還很低,他的
翻譯機沒有製成。1946 年,第一台現代電子計算機 ENIAC 誕生,隨後不久,資訊理論的先驅、美國科學家 W. Weaver 和英國工程師A. D. Booth 在討論電子計算機的套用範圍時,於1947年提出了利用計算機進行語言自動翻譯的想法。1949年,W. Weaver 發表《翻譯備忘錄》 ,正式提出機器翻譯的思想。走過六十年的風風雨雨,機器翻譯經歷了一條曲折而漫長的發展道路,學術界一般將其劃分為如下四個階段:
開創期
(1947-1964)
1954 年,美國喬治敦大學(Georgetown University) 在 IBM 公司協同下, 用 IBM-701計算機首次完成了英俄機器翻譯試驗,向公眾和科學界展示了機器翻譯的可行性,從而拉開了機器翻譯研究的序幕。
中國開始這項研究也並不晚, 早在1956年,國家就把這項研究列入了全國科學工作發展規劃,課題名稱是“機器翻譯、自然語言翻譯規則的建設和自然語言的數學理論”。1957 年,中國科學院語言研究所與計算技術研究所合作開展俄漢機器翻譯試驗,翻譯了9 種不同類型的較為複雜的句子。
從20世紀50年代開始到20世紀60年代前半期,機器翻譯研究呈不斷上升的趨勢。美國和前蘇聯兩個超級大國出於軍事、政治、經濟目的,均對機器翻譯項目提供了大量的資金支持,而歐洲國家由於地緣政治和經濟的需要也對機器翻譯研究給予了相當大的重視,機器翻譯一時出現熱潮。這個時期機器翻譯雖然剛剛處於開創階段,但已經進入了樂觀的繁榮期。
受挫期
(1964-1975)
1964年,為了對機器翻譯的研究進展作出評價,美國科學院成立了語言自動處理諮詢委員會(Automatic Language Processing Advisory Committee,簡稱ALPAC委員會),開始了為期兩年的綜合調查分析和測試。
1966年11月,該委員會公布了一個題為《語言與機器》的報告(簡稱ALPAC報告) ,該報告全面否定了機器翻譯的可行性,並建議停止對機器翻譯項目的資金支持。這一報告的發表給了正在蓬勃發展的機器翻譯當頭一棒,機器翻譯研究陷入了近乎停滯的僵局。無獨有偶,在此期間,中國爆發了“十年文革” ,基本上這些研究也停滯了。機器翻譯步入蕭條期。
恢復期
(1975-1989)
進入 70 年代後,隨著科學技術的發展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴重,傳統的人工作業方式已經遠遠不能滿足需求,迫切地需要計算機來從事翻譯工作。 同時,計算機科學、語言學研究的發展,特別是計算機硬體技術的大幅度提高以及人工智慧在
自然語言處理上的套用,從技術層面推動了機器翻譯研究的復甦,機器翻譯項目又開始發展起來,各種實用的以及實驗的系統被先後推出,例如 Weinder 系統、EURPOTRA 多國語翻譯系統、TAUM-METEO系統等。
而我國在“十年浩劫”結束後也重新振作起來,機器翻譯研究被再次提上日程。“784”工程給予了機器翻譯研究足夠的重視,80 年代中期以後,我國的機器翻譯研究發展進一步加快,首先研製成功了 KY-1 和MT/EC863 兩個英漢機譯系統,表明我國在機器翻譯技術方面取得了長足的進步。
新時期
(1990至今)
隨著 Internet 的普遍套用,世界經濟一體化進程的加速以及國際社會交流的日漸頻繁,傳統的人工作業的方式已經遠遠不能滿足迅猛增長的翻譯需求,人們對於機器翻譯的需求空前增長,機器翻譯迎來了一個新的發展機遇。國際性的關於機器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了一系列機器翻譯軟體,例如“譯星” 、 “
雅信” 、 “通譯” 、 “華建”等。在市場需求的推動下,商用機器翻譯系統邁入了實用化階段,走進了市場,來到了用戶面前。
新世紀以來,隨著網際網路的出現和普及,數據量激增,統計方法得到充分套用。網際網路公司紛紛成立機器翻譯研究組,研發了基於網際網路大數據的機器翻譯系統,從而使機器翻譯真正走向實用,例如“百度翻譯”,“谷歌翻譯”等。近年來,隨著深度學習的進展,機器翻譯技術的到了進一步的發展,促進了翻譯質量的快速提升,在口語等領域的翻譯更加地道流暢。
翻譯過程
整個機器翻譯的過程可以分為原文分析、原文譯文轉換和譯文生成3個階段。在具體的機器翻譯系統中,根據不同方案的目的和要求,可以將原文譯文轉換階段與原文分析階段結合在一起,而把譯文生成階段獨立起來,建立
相關分析獨立生成系統。在這樣的系統中,原語分析時要考慮譯語的特點,而在譯語生成時則不考慮原語的特點。在研究多種語言對一種語言的翻譯時,宜於採用這樣的相關分析獨立生成系統。也可以把原文分析階段獨立起來,把原文譯文轉換階段同譯文生成階段結合起來,建立獨立分析相關生成系統。在這樣的系統中,原語分析時不考慮譯語的特點,而在譯語生成時要考慮原語的特點,在研究一種語言對多種語言的翻譯時,宜於採用這樣的獨立分析相關生成系統。還可以把原文分析、原文譯文轉換與譯文生成分別獨立開來,建立獨立分析獨立生成系統。在這樣的系統中,分析原語時不考慮譯語的特點,生成譯語時也不考慮原語的特點,原語譯語的差異通過原文譯文轉換來解決。在研究多種語言對多種語言的翻譯時,宜於採用這樣的獨立分析獨立生成系統。
翻譯簡史
中國機器翻譯研究起步於1957年,是世界上第4個開始研究機器翻譯的國家,60年代中期以後一度中斷,70年代中期以來有了進一步的發展。中國社會科學院語言研究所、
中國科學技術情報研究所、中國科學院計算技術研究所、黑龍江大學、哈爾濱工業大學等單位都在進行機器翻譯的研究;上機進行過實驗的機器翻譯系統已有十多個,翻譯的語種和類型有英漢、俄漢、法漢、日漢、德漢等一對一的系統,也有漢譯英、法、日、俄、德的一對多系統(FAJRA系統)。此外,還建立了一個漢語
語料庫和一個科技英語語料庫。中國機器翻譯系統的規模正在不斷地擴大,內容正在不斷地完善。近年來,中國的網際網路公司也發布了網際網路翻譯系統,如“百度翻譯”“有道翻譯”等。
機譯系統
系統劃分
機譯系統可劃分為基於規則( Rule-Based )和基於
語料庫(Corpus-Based)兩大類。前者由詞典和規則庫構成知識源;後者由經過劃分並具有標註的語料庫構成知識源,既不需要詞典也不需要規則,以
統計規律為主。機譯系統是隨著
語料庫語言學的興起而發展起來的,世界上絕大多數機譯系統都採用以規則為基礎的策略,一般分為語法型、語義型、知識型和智慧型型。不同類型的機譯系統由不同的成分構成。抽象地說,所有機譯系統的處理過程都包括以下步驟:對源語言的分析或理解,在語言的某一平面進行轉換,按目標語言結構規則生成目標語言。技術差別主要體現在轉換平面上。
辭彙型
從美國喬治敦大學的機器翻譯試驗到50年代末的系統,基本上屬於這一類機器翻譯系統。它們的特點是:①以辭彙轉換為中心,建立雙語詞典,翻譯時,文句加工的目的在於立即確定相應於原語各個詞的譯語等價詞;②如果原語的一個詞對應於譯語的若干個詞,機器翻譯系統本身並不能決定選擇哪一個,而只能把各種可能的選擇全都輸出;③語言和程式不分,語法的規則與程式的算法混在一起,算法就是規則。由於第一類機器翻譯系統的上述特點,它的譯文質量是極為低劣的,並且,設計這樣的系統是一種十分瑣碎而繁雜的工作,系統設計成之後沒有擴展的餘地,修改時牽一髮而動全身,給系統的改進造成極大困難。
語法型
研究重點是詞法和句法,以上下文無關文法為代表,早期系統大多數都屬這一類型。語法型系統包括源文分析機構、源語言到目標語言的轉換機構和目標語言生成機構3部分。源文分析機構對輸入的源文加以分析,這一分析過程通常又可分為詞法分析、語法分析和語義分析。通過上述分析可以得到源文的某種形式的內部表示。轉換機構用於實現將相對獨立於源文表層表達方式的內部表示轉換為與目標語言相對應的內部表示。目標語言生成機構實現從目標語言內部表示到目標語言
表層結構的轉化。
60年代以來建立的機器翻譯系統絕大部分是這一類機器翻譯系統。它們的特點是:①把句法的研究放在第一位,首先用代碼化的結構標誌來表示原語文句的結構,再把原語的結構標誌轉換為譯語的結構標誌,最後構成譯語的輸出文句;②對於多義詞必須進行專門的處理,根據上下文關係選擇出恰當的詞義,不容許把若干個譯文詞一攬子列出來;③語法與算法分開,在一定的條件之下,使語法處於一定類別的界限之內,使語法能由給定的算法來計算,並可由這種給定的算法描寫為相應的公式,從而不改變算法也能進行語法的變換,這樣,語法的編寫和修改就可以不考慮算法。第2類機器翻譯系統不論在譯文的質量上還是在使用的方便上,都比第1類機器翻譯系統大大地前進了一步。
語義型
研究重點是在機譯過程中引入語義特徵信息,以Burtop提出的語義文法和Charles Fillmore提出的格框架文法為代表。語義分析的各種理論和方法主要解決形式和邏輯的統一問題。利用系統中的語義切分規則,把輸入的源文切分成若干個相關的語義元成分。再根據語義轉化規則,如關鍵字匹配,找出各語義元成分所對應的語義內部表示。系統通過測試各語義元成分之間的關係,建立它們之間的邏輯關係,形成全文的語義表示。處理過程主要通過查語義詞典的方法實現。語義表示形式一般為格框架,也可以是概念依存表示形式。最後,機譯系統通過對中間語義表示形式的解釋,形成相應的譯文。
70年代以來,有些機器翻譯者提出了以語義為主的第3類機器翻譯系統。引入語義平面之後,就要求在語言描寫方面作一些實質性的改變,因為在以句法為主的機器翻譯系統中,最小的翻譯單位是詞,最大的翻譯單位是單個的句子,機器翻譯的算法只考慮對一個句子的自動加工,而不考慮分屬不同句子的詞與詞之間的聯繫。第3類機器翻譯系統必須超出句子範圍來考慮問題,除了義素、詞、詞組、句子之外,還要研究大於句子的句段和篇章。為了建立第3類機器翻譯系統,語言學家要深入研究語義學,數學家要制定語義表示和語義加工的算法,在程式設計方面,也要考慮語義加工的特點。
知識型
目標是給機器配上人類常識,以實現基於理解的翻譯系統,以Tomita提出的知識型機譯系統為代表。知識型機譯系統利用龐大的語義知識庫,把源文轉化為中間語義表示,並利用專業知識和日常知識對其加以精練,最後把它轉化為一種或多種譯文輸出。
智慧型型
目標是採用人工智慧的最新成果,實現多路徑動態選擇以及知識庫的自動重組技術,對不同句子實施在不同平面上的轉換。這樣就可以把語法、語義、常識幾個平面連成一
有機整體,既可繼承傳統系統優點,又能實現系統自增長的功能。這一類型的系統以中國科學院計算所開發的IMT/EC系統為代表。
基於統計
一般的基於語料庫(Corpus-Based)的機譯系統就是基於統計的機器翻譯,因為這一領域異軍突起,統計就是統計平行語料,由此衍生出許多不同的統計模型。
不同於基於規則的機譯系統由詞典和語法規則庫構成翻譯知識庫,基於語料庫的機譯系統是以語料的套用為核心,由經過劃分並具有標註的語料庫構成知識庫。基於語料庫的方法可以分為基於統計(Statistics-based)的方法和基於實例(Example-based)的方法。
基於統計的機器翻譯方法把機器翻譯看成是一個信息傳輸的過程,用一種信道模型對機器翻譯進行解釋。這種思想認為,源語言句子到目標語言句子的翻譯是一個機率問題,任何一個目標語言句子都有可能是任何一個源語言句子的譯文,只是機率不同,機器翻譯的任務就是找到機率最大的句子。具體方法是將翻譯看做對原文通過模型轉換為譯文的解碼過程。因此
統計機器翻譯又可以分為以下幾個問題:模型問題、訓練問題、解碼問題。所謂模型問題,就是為機器翻譯建立
機率模型,也就是要定義源語言句子到目標語言句子的翻譯機率的計算方法。而訓練問題,是要利用語料庫來得到這個模型的所有參數。所謂解碼問題,則是在已知模型和參數的基礎上,對於任何一個輸入的源語言句子,去查找機率最大的譯文。
實際上, 用統計學方法解決機器翻譯問題的想法並非是 20 世紀 90 年代的全新思想,1949 年W. Weaver 在那個機器翻譯備忘錄就已經提出使用這種方法,只是由於
喬姆斯基(N.Chomsky) 等人對計的批判,這種方法很快就被放棄了。批判的理由主要是一點:語言是無限的,基於經驗主義的
統計描述無法滿足語言的實際要求。
另外,限於當時的計算機速度,統計的價值也無從談起。計算機不論從速度還是從容量方面都有了大幅度的提高,昔日大型計算機才能完成的工作,今日小型工作站或個人計算機就可以完成了。此外,
統計方法在語音識別、文字識別、詞典編纂等領域的成功套用也表明這一方法在語言自動處理領域還是很有成效的。
統計機器翻譯方法的數學模型是由國際商業機器公司 (IBM) 的研究人員提出的。在著名的文章《機器翻譯的數學理論》中提出了由五種詞到詞的
統計模型,稱為 IBM 模型 1 到 IBM 模型 5。這五種模型均源自信源-信道模型,採用最大似然法估計參數。由於當時(1993年)計算條件的限制,無法實現基於大規模數據訓練。其後,由Stephan Vogel提出了基於隱馬爾科夫模型的統計模型也受到重視,該模型被用來替代IBM Model 2。在這時的研究中,統計模型只考慮了詞與詞之間的
線性關係,沒有考慮句子的結構。這在兩種語言的語序相差較大時效果可能不會太好。如果在考慮語言模型和翻譯模型時將句法結構或語義結構考慮進來,應該會得到更好的結果。
在此文發表後6年,一批研究人員在約翰·霍普金斯大學的機器翻譯夏令營上實現了GIZA軟體包。Franz Joseph Och 在隨後對該軟體進行了最佳化,加快訓練速度。特別是IBM Model 3 到 5的訓練。同時他提出了更加複雜的Model 6。Och發布的軟體包被命名為GIZA++,直到現在,GIZA++還是絕大部分
統計機器翻譯系統的基石。針對大規模語料的訓練,已有GIZA++的若干並行化版本存在。
基於詞的統計機器翻譯的性能卻由於建模單元過小而受到限制。因此,許多研究者開始轉向基於短語的翻譯方法。Franz-Josef Och提出的基於
最大熵模型的區分性訓練方法使統計機器翻譯的性能極大提高,在此後數年,該方法的性能遠遠領先於其他方法。一年後Och又修改最大熵方法的最佳化準則,直接針對客觀評價標準進行最佳化,從而誕生了今天廣泛採用的最小錯誤訓練方法(Minimum Error Rate Training)。
另一件促進
統計機器翻譯進一步發展的重要發明是自動客觀評價方法的出現,為翻譯結果提供了自動評價的途徑,從而避免了繁瑣與昂貴的人工評價。最為重要的評價是BLEU評價指標。絕大部分研究者仍然使用BLEU作為評價其研究結果的首要的標準。
Moses 是維護較好的開源機器翻譯軟體,由愛丁堡大學研究人員組織開發。其發布使得以往繁瑣複雜的處理簡單化。
Google 的線上翻譯已為人熟知,其背後的技術即為基於統計的機器翻譯方法,基本運行原理是通過搜尋大量的雙語網頁內容,將其作為語料庫,然後由計算機自動選取最為常見的詞與詞的對應關係,最後給出翻譯結果。不可否認,Google 採用的技術是先進的,但它還是經常鬧出各種“翻譯笑話” 。其原因在於:基於統計的方法需要大規模雙語語料,翻譯模型、語言模型參數的準確性直接依賴於語料的多少,而翻譯質量的高低主要取決於
機率模型的好壞和語料庫的覆蓋能力。基於統計的方法雖然不需要依賴大量知識,直接靠統計結果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此通用領域的機器翻譯系統很少以
統計方法為主。
與統計方法相同,基於實例的機器翻譯方法也是一種基於
語料庫的方法,其基本思想由日本著名的機器翻譯專家長尾真提出,他研究了外語初學者的基本模式,發現初學外語的人總是先記住最基本的英語句子和對應的日語句子,而後做替換練習。參照這個學習過程,他提出了基於實例的機器翻譯思想,即不經過深層分析,僅僅通過已有的經驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標語言短語,最後把這些短語合併成長句。對於實例方法的系統而言,其主要知識源就是雙語對照的實例庫,不需要什麼字典、
語法規則庫之類的東西,核心的問題就是通過最大限度的統計,得出雙語對照實例庫。
基於實例的機器翻譯對於相同或相似文本的翻譯有非常顯著的效果,隨著例句庫規模的增加,其作用也越來越顯著。對於實例庫中的已有文本,可以直接獲得高質量的翻譯結果。對與實例庫中存在的實例十分相似的文本,可以通過類比推理,並對翻譯結果進行少量的修改,構造出近似的翻譯結果。
這種方法在初推之時,得到了很多人的推崇。但一段時期後,問題出現了。由於該方法需要一個很大的
語料庫作為支撐,語言的實際需求量非常龐大。但受限於語料庫規模,基於實例的機器翻譯很難達到較高的匹配率,往往只有限定在比較窄的或者專業的領域時,翻譯效果才能達到使用要求。因而到目前為止,還很少有機器翻譯系統採用純粹的基於實例的方法,一般都是把基於實例的機器翻譯方法作為多翻譯引擎中的一個,以提高翻譯的正確率。
人工神經網路
2013年來,隨著深度學習的研究取得較大進展,基於人工神經網路的機器翻譯( Neural Machine Translation )逐漸興起。其技術核心是一個擁有海量結點(神經元)的深度神經網路,可以自動的從語料庫中學習翻譯知識。一種語言的句子被向量化之後,在網路中層層傳遞,轉化為計算機可以“理解”的表示形式,再經過多層複雜的傳導運算,生成另一種語言的譯文。實現了 “理解語言,生成譯文”的翻譯方式。這種翻譯方法最大的優勢在於譯文流暢,更加符合語法規範,容易理解。相比之前的翻譯技術,質量有“躍進式”的提升。
目前,廣泛套用於機器翻譯的是長短時記憶(LSTM,Long Short-Term Memory)循環神經網路(RNN,Recurrent Neural Network)。該模型擅長對自然語言建模,把任意長度的句子轉化為特定維度的浮點數向量,同時“記住”句子中比較重要的單詞,讓“記憶”保存比較長的時間。該模型很好地解決了自然語言句子向量化的難題,對利用計算機來處理自然語言來說具有非常重要的意義,使得計算機對語言的處理不再停留在簡單的字面匹配層面,而是進一步深入到語義理解的層面。
代表性的研究機構和公司包括,加拿大蒙特婁大學的機器學習實驗室,發布了開源的基於神經網路的機器翻譯系統GroundHog。2015年,百度發布了融合統計和深度學習方法的線上翻譯系統,Google也在此方面開展了深入研究。
線上機譯
鑒於機器翻譯仍具相當市場,中國涉足這一領域的廠商也不一而足。國內市場上的
翻譯軟體產品可以劃分為四大類:全文翻譯(
專業翻譯)、
線上翻譯、漢化軟體和電子詞典。
全文翻譯
全文翻譯軟體以中軟“譯星”以及“雅信CAT2.5”為代表;
線上翻譯
隨著全球化網路時代的到來,語言障礙已經成為二十一世紀社會發展的重要瓶頸,實現任意時間、任意地點、任意語言的無障礙自由溝通是人類追求的一個夢想。這僅是全球化背景下的一個小縮影。在社會快速發展的進程中,機器翻譯扮演越來越重要的角色。
詞典類軟體如
金山詞霸,
有道詞典等,基於大數據的網際網路機器翻譯系統如百度翻譯,谷歌翻譯等。
漢化類翻譯
漢化類翻譯軟體主要以“東方快車3000”為代表;
詞典工具
詞曲工具軟體以“金山詞霸.net2001”為主要代表。
由於機器翻譯在今後需要滿足人們在浩瀚的網際網路上方便地進行信息蒐集的需求,於是很多翻譯開發者在翻譯準確度上下工夫的同時,開始注重結合用戶的使用領域並進行方向性的開發。根據的市場發展看來,在新一輪的競賽中,線上翻譯前景十分看好。中國的網民已超4億,並繼續以極快速度增長。
質量問題
誤差難免
很多人對機器翻譯有誤解,他們認為機器翻譯偏差大,不能幫人們解決任何問題。其實其誤差在所難免,原因在於,機器翻譯運用語言學原理,機器自動識別語法,調用存儲的詞庫,自動進行對應翻譯,但是因語法、詞法、句法發生變化或者不規則,出現錯誤是難免的,比如《大話西遊》中“給我一個殺你的理由,先”之類狀語後置的句子。機器畢竟是機器,沒有人對語言的特殊感情,它怎么會感受“最是那一低頭的溫柔,像一朵水蓮花不勝涼風的嬌羞”的韻味?畢竟漢語因其詞法、語法、句法的變化及其語境的更換,其意思大相逕庭,就連很多國人都是丈二和尚——摸不著頭腦,就別說機器了。
瓶頸所在
事實上,不論哪種方法,影響機譯發展的最大因素在於譯文的質量。就已有的成就來看,機譯的質量離終極目標仍相差甚遠。
中國數學家、語言學家
周海中曾在論文《機器翻譯五十年》中指出:要提高機譯的譯文質量,首先要解決的是語言本身問題而不是程式設計問題;單靠若干程式來做機譯系統,肯定是無法提高機譯的譯文質量的。同時,他還指出:在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。這一觀點恐怕道出了制約譯文質量的瓶頸所在。
值得一提的是,美國發明家、未來學家雷·科茲威爾在接受《赫芬頓郵報》採訪時預言,到2029年機譯的質量將達到人工翻譯的水平。對於這一論斷,學術界還存在很多爭議。
不論怎樣,目前是人們對機譯最為看好的時期,這種關注是建立在一個客觀認識和理性思考的基礎上的。我們也有理由相信:在計算機專家、語言學家、心理學家、邏輯學家和數學家的共同努力下,機譯的瓶頸問題將會得以解決了。