基於神經網路模型的翻譯方法及裝置

基於神經網路模型的翻譯方法及裝置

《基於神經網路模型的翻譯方法及裝置》是百度線上網路技術(北京)有限公司於2015年7月29日申請的發明專利,該專利的申請號為2015104552706,公布號為CN105068998A,公布日為2015年11月18日,發明人是何中軍、和為、吳華、王海峰,該專利涉及機器翻譯技術領域。

《基於神經網路模型的翻譯方法及裝置》其中,基於神經網路模型的翻譯方法包括:獲取源語言的語句;將所述源語言的語句進行編碼得到向量序列;基於所述向量序列逐詞地預測目標語言中相應的候選詞;根據預測得到的候選詞生成目標語言的語句。該發明實施例的基於神經網路模型的翻譯方法及裝置,能夠結合多種翻譯特徵執行翻譯,提高了翻譯結果的翻譯質量、流利程度以及可讀性。

2018年12月20日,《基於神經網路模型的翻譯方法及裝置》獲得第二十屆中國專利銀獎。

(概述圖為《基於神經網路模型的翻譯方法及裝置》摘要附圖)

基本介紹

  • 中文名:基於神經網路模型的翻譯方法及裝置
  • 公布號:CN105068998A
  • 公布日:2015年11月18日
  • 申請號:2015104552706
  • 申請日:2015年7月29日
  • 申請人:百度線上網路技術(北京)有限公司
  • 地址:北京市海淀區上地十街10號百度大廈三層
  • 發明人:何中軍、和為、吳華、王海峰
  • 分類號:G06F17/28(2006.01)I、G06N3/02(2006.01)I
  • 代理機構:北京金律言科智慧財產權代理事務所(普通合夥)
  • 類別:發明專利
  • 代理人:羅延紅、楊移
專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,權利要求,實施方式,榮譽表彰,

專利背景

截至2015年7月,循環神經網路(Recurrent Neural Network,RNN)技術被廣泛套用於機器翻譯領域。與傳統的統計機器翻譯系統相比,基於循環神經網路的機器翻譯系統能夠充分利用全局語義信息,翻譯質量顯著提升。
然而,基於循環神經網路的機器翻譯技術也存在著明顯的不足之處:
一、詞表受限。
通常,RNN翻譯模型僅能使用一個數量有限的單詞詞表(通常三萬單詞以內),導致詞表外單詞(Out-of-vocabulary,OOV)無法翻譯。
二、RNN翻譯模型僅支持雙語語句對進行訓練,難以利用可有效提高翻譯結果流利度的目標語言單語語料進行訓練。
三、無法增加或豐富更多的特徵。
具體來說,傳統的統計機器翻譯方法是基於多種特徵執行翻譯處理的,對於每一個翻譯單元(單詞短語、翻譯規則等)均計算每個特徵的得分,最終結合多個特徵的得分來確定最優翻譯結果。然而,這些能夠提高翻譯質量的特徵無法直接為RNN翻譯模型所用。
四、漏詞現象嚴重,易生成較短翻譯結果,影響翻譯結果的可讀性。

發明內容

專利目的

《基於神經網路模型的翻譯方法及裝置》實施例的目的在於,提供一種基於神經網路模型的翻譯方法及裝置,結合多種翻譯特徵執行翻譯,以提高翻譯結果的翻譯準確性。

技術方案

《基於神經網路模型的翻譯方法及裝置》的實施例提供了一種基於神經網路模型的翻譯方法,包括:獲取源語言的語句;將所述源語言的語句進行編碼,得到向量序列;基於所述向量序列逐詞地預測目標語言中相應的候選詞;根據預測得到的候選詞生成目標語言的語句,其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
優選地,所述從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞的處理包括:從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數;根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵;計算每個所述初選詞的統計機器翻譯模型的翻譯特徵;根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值;對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
優選地,所述基於所述向量序列逐詞地預測目標語言中相應的候選詞的處理還包括:依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係,所述根據預測得到的候選詞生成目標語言的語句的處理包括:根據具有關聯關係的所有候選詞生成目標語言的語句。
優選地,所述統計機器翻譯模型的翻譯特徵包括雙向單詞翻譯模型特徵。
優選地,所述統計機器翻譯模型的翻譯特徵還包括N元語言模型特徵和/或詞懲罰特徵。
優選地,所述將所述源語言的語句進行編碼得到向量序列的處理包括:對源語言的語句進行分詞,將分得的多個分詞分別轉換成與每個所述分詞對應的詞向量,由多個分詞各自對應的詞向量得到所述向量序列。
優選地,所述獲取源語言的語句的處理包括以下處理之一:接收文本數據,並將所述文本數據作為所述源語言的語句;接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句;接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。
該發明的實施例還提供了一種基於神經網路模型的翻譯裝置,包括:語句獲取模組,用於獲取源語言的語句;語句編碼模組,用於將所述源語言的語句進行編碼得到向量序列;候選詞預測模組,用於基於所述向量序列逐詞地預測目標語言中相應的候選詞;語句生成模組,用於根據預測得到的候選詞生成目標語言的語句,其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
優選地,所述候選詞預測模組包括:初選詞獲取單元,用於從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數;神經網路模型特徵計算單元,用於根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵;統計機器模型特徵計算單元,用於計算每個所述初選詞的統計機器翻譯模型的翻譯特徵;翻譯機率計算單元,用於根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值;候選詞選取單元,用於對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
優選地,所述候選詞預測模組還包括:候選詞關聯單元,用於依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係,所述語句生成模組,用於根據具有關聯關係的所有候選詞生成目標語言的語句。
優選地,所述統計機器翻譯模型的翻譯特徵包括雙向單詞翻譯模型特徵。
優選地,所述統計機器翻譯模型的翻譯特徵還包括N元語言模型特徵和/或詞懲罰特徵。
優選地,所述語句編碼模組用於對源語言的語句進行分詞,將分得的多個分詞分別轉換成與每個所述分詞對應的詞向量,由多個分詞各自對應的詞向量得到所述向量序列。
優選地,所述語句獲取模組包括以下單元之一:文本數據接收單元,用於接收文本數據,並將所述文本數據作為所述源語言的語句;語音數據接收及識別單元,用於接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句;圖片數據接收及識別單元,用於接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。

改善效果

該發明實施例提供的基於神經網路模型的翻譯方法及裝置,對獲取到的源語言的語句進行編碼得到向量序列,再基於向量序列逐詞地預測目標語言中相應的候選詞,在任一所述候選詞的預測處理過程中,利用對數線性模型,將統計機器翻譯模型的翻譯特徵引入神經網路翻譯模型,從而計算從預設的翻譯詞表中獲取的每個初選詞的翻譯機率,由此基於翻譯機率計算結果從多個初選詞中選取候選詞,最終根據預測的候選詞自動地生成目標語言的語句,極大地提高了翻譯的準確性、可讀性及流暢性。同時,生成的翻譯結果長度適宜,降低了漏詞率。

附圖說明

圖1是示出該發明實施例一的基於神經網路模型的翻譯方法的流程圖;
圖2是示出該發明實施例一的基於神經網路模型的翻譯方法中神經網路翻譯模型的套用場景示例性示意圖;
圖3是示出該發明實施例一的基於神經網路模型的翻譯方法中OOV的預測處理示例性示意圖;
圖4是示出該發明實施例二的基於神經網路模型的翻譯裝置的邏輯框圖。

權利要求

1.一種基於神經網路模型的翻譯方法,其特徵在於,所述方法包括:獲取源語言的語句;將所述源語言的語句進行編碼,得到向量序列,所述向量序列包括由從所述語句分得的各個分詞分別轉換成的詞向量;基於所述向量序列逐詞地預測目標語言中相應的候選詞;根據預測得到的候選詞生成目標語言的語句,其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
2.根據權利要求1所述的方法,其特徵在於,所述從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞的處理包括:從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數,根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵,計算每個所述初選詞的統計機器翻譯模型的翻譯特徵,根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值,對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
3.根據權利要求2所述的方法,其特徵在於,所述基於所述向量序列逐詞地預測目標語言中相應的候選詞的處理還包括:依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係,所述根據預測得到的候選詞生成目標語言的語句的處理包括:根據具有關聯關係的所有候選詞生成目標語言的語句。
4.根據權利要求3所述的方法,其特徵在於,所述統計機器翻譯模型的翻譯特徵包括雙向單詞翻譯模型特徵。
5.根據權利要求4所述的方法,其特徵在於,所述統計機器翻譯模型的翻譯特徵還包括N元語言模型特徵和/或詞懲罰特徵。
6.根據權利要求1~5中任一項所述的方法,其特徵在於,所述獲取源語言的語句的處理包括以下處理之一:接收文本數據,並將所述文本數據作為所述源語言的語句,接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句,接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。
7.一種基於神經網路模型的翻譯裝置,其特徵在於,所述裝置包括:語句獲取模組,用於獲取源語言的語句;語句編碼模組,用於將所述源語言的語句進行編碼得到向量序列,所述向量序列包括由從所述語句分得的各個分詞分別轉換成的詞向量;候選詞預測模組,用於基於所述向量序列逐詞地預測目標語言中相應的候選詞;語句生成模組,用於根據預測得到的候選詞生成目標語言的語句,其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
8.根據權利要求7所述的裝置,其特徵在於,所述候選詞預測模組包括:初選詞獲取單元,用於從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數,神經網路模型特徵計算單元,用於根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵,統計機器模型特徵計算單元,用於計算每個所述初選詞的統計機器翻譯模型的翻譯特徵,翻譯機率計算單元,用於根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值,候選詞選取單元,用於對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
9.根據權利要求8所述的裝置,其特徵在於,所述候選詞預測模組還包括:候選詞關聯單元,用於依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係,所述語句生成模組,用於根據具有關聯關係的所有候選詞生成目標語言的語句。
10.根據權利要求9所述的裝置,其特徵在於,所述統計機器翻譯模型的翻譯特徵包括雙向單詞翻譯模型特徵。
11.根據權利要求10所述的裝置,其特徵在於,所述統計機器翻譯模型的翻譯特徵還包括N元語言模型特徵和/或詞懲罰特徵。
12.根據權利要求7~11中任一項所述的裝置,其特徵在於,所述語句獲取模組包括以下單元之一:文本數據接收單元,用於接收文本數據,並將所述文本數據作為所述源語言的語句,語音數據接收及識別單元,用於接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句,圖片數據接收及識別單元,用於接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。

實施方式

《基於神經網路模型的翻譯方法及裝置》的基本構思是,提供一種結合傳統的統計機器翻譯方法和RNN翻譯方法的翻譯方式:利用對數線性模型將神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵相結合,計算從預設的翻譯詞表中預測出的多個初選詞的得分(即翻譯機率),從經排序(得分從大到小順序排列)的多個初選詞中選取候選詞。
然後,根據經上述預測處理得到候選詞,自動地生成長度適宜的目標語言語句,解決了RNN翻譯方法中存在的詞表受限、難以利用單語語料進行訓練、無法豐富特徵、傾向於生成較短翻譯結果的問題,顯著提升翻譯質量,且提高翻譯結果的可讀性及流利程度。
實施例一
圖1是示出該發明實施例一的基於神經網路模型的翻譯方法的流程圖。可在實施例二所述的裝置上執行所述方法。
參照圖1,在步驟S110,獲取源語言的語句。
根據該發明的示例性實施例,步驟S110包括以下處理之一:接收文本數據,並將所述文本數據作為所述源語言的語句。
接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句。
接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。
在步驟S120,將所述源語言的語句進行編碼,得到向量序列。
具體地,可以對源語言的語句進行分詞,將分得的多個分詞分別轉換成與每個所述分詞對應的詞向量,由多個分詞各自對應的詞向量得到所述向量序列。
圖2是示出該發明實施例一的基於神經網路模型的翻譯方法中神經網路翻譯模型的套用場景示例性示意圖。參照圖2,以獲取到的源語言語句“北京的計程車司機很熱情”為例,對該語句進行分詞處理得到六個分詞,圖2中每個方框內的字或詞語代表一個分詞,“0.123,0.264…0.465”是經編碼處理後得到的向量序列。
在步驟S130,基於所述向量序列逐詞地預測目標語言中相應的候選詞。其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
具體地,在本步驟中,所述從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞的處理可包括:從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數;根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵;計算每個所述初選詞的統計機器翻譯模型的翻譯特徵;根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值。對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
在具體的實現方式中,仍以圖2為例進行說明,首先從預設的翻譯詞表中獲取多個詞語(the,beijing,taxi等)作為初選詞,根據向量序列(0.123,0.264…0.465)計算每個所述初選詞的神經網路翻譯模型的翻譯特徵。這裡,由於是預測目標語句中位於第一位的候選詞,在此之前沒有預測出的候選詞,因此計算時無需考慮之前預測出的候選詞。
然而,在後續的候選詞的預測處理中均需考慮之前預測出的候選詞。也就是說,預測出目標語言語句中位於第一位的候選詞the,beijing與tax之後,將分別使用這三個候選詞預測後面的候選詞taxi,driver與’s。在預測位於第二位的候選詞時,“thetaxi”,“thedriver”以及“beijing’s”三者得分最高,參與後續的預測處理過程,而位於第一位的候選詞“taxi”後續不會再被參考。
優選地,可通過以下公式(1)執行所述根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵的處理:
式(1)
其中,hrnn為神經網路翻譯模型的翻譯特徵,ej為目標語言的語句中第j個初選詞,ej-1,…,e1為獲取初選詞ej之前預測出的前j-1個候選詞,為所述向量序列。
如前所述,在RNN翻譯方法中存在詞表受限的問題。圖3是示出該發明實施例一的基於神經網路模型的翻譯方法中OOV的預測處理示例性示意圖。參照圖3,單詞“坑洞”對於神經網路翻譯模型來說是一個OOV,無法得到準確的譯文。
在本實施例中,對於OOV用“UNK”標記,在後續的處理步驟中,使用預設的單詞翻譯表對標記為“UNK”的單詞進行預測候選詞處理。具體地,為了生成OOV的準確翻譯,首先找到源語言語句中對應的詞,圖3中α13=0.1表示“陷在”到“UNK”的單詞對齊機率是0.1,α23=0.7表示“坑洞”到“UNK”的單詞對齊機率是0.7,α33=0.2表示“中”到“UNK”的單詞對齊機率是0.2,α23的值最大。由此可知,“UNK”對應源語言語句中的“坑洞”一詞,然後,“坑洞”相應的目標語言語句中的候選詞可從大規模對齊雙語語料庫訓練出來的單詞翻譯表中獲得,如圖3所示的hole、pothole等。
其次,計算每個所述初選詞的統計機器翻譯模型的翻譯特徵。為了最佳化單詞互譯程度、提高翻譯質量,優選地,所述統計機器翻譯模型的翻譯特徵可包括雙向單詞翻譯模型特徵。可通過以下公式(2)和公式(3)執行所述計算每個所述初選詞的雙向單詞翻譯模型特徵的處理:
式(2)
式(3)
其中,htp1為源語言到目標語言的單詞翻譯模型特徵,htp2為目標語言到源語言的單詞翻譯模型特徵,p(ej|fi)為源語言的單詞fi到目標語言的初選詞ej的翻譯機率,p(fi|ej)為目標語言的初選詞ej到源語言的單詞fi的翻譯機率,αji為源語言的單詞fi到目標語言的初選詞ej的單詞對齊機率,所述單詞對齊機率是基於神經網路翻譯模型生成的。δ(ej,fi)為目標語言的初選詞ej和源語言的單詞fi之間的翻譯參數,δ(ej,fi)=1時,目標語言的初選詞ej和源語言的單詞fi之間互為翻譯,δ(ej,fi)=0時,目標語言的初選詞ej和源語言的單詞fi之間不互為翻譯。δ(fi,ej)為源語言的單詞fi和目標語言的初選詞ej之間的翻譯參數,δ(fi,ej)=1時,源語言的單詞fi和目標語言的初選詞ej之間互為翻譯,δ(fi,ej)=0時,源語言的單詞fi和目標語言的初選詞ej之間不互為翻譯。
進一步地,所述統計機器翻譯模型的翻譯特徵還可以包括N元語言模型特徵和/或詞懲罰特徵。由於在RNN翻譯方法中通過求譯文中每個單詞的翻譯機率的乘積來計算所述單詞的得分,而每個單詞的翻譯機率都是一個小於1的值,因此譯文長度越長得分越低,反之譯文長度越短得分越高,這導致RNN翻譯系統更傾向於生成短譯文。因此,通過詞懲罰特徵對過短的翻譯結果進行懲罰,可以最佳化翻譯結果的長度,生成長度適宜的譯文。
這裡,利用大規模單語語料庫通過N元語言模型特徵最佳化了翻譯結果局部的流利程度。需要說明的是,N元語言模型中當前詞出現的機率僅和其之前的N-1個詞有關係。例如,當N取值為2時,當前詞的出現機率僅和其前一個詞有關係。具體地,可通過以下公式(4)執行所述計算每個所述初選詞的N元語言模型特徵的處理:
式(4)
其中,hlm為N元語言模型特徵,ej為目標語言的語句中第j個初選詞,ej-1,…,ej-n+1為獲取初選詞ej之前預測出的前n-1個候選詞。
最後,可通過以下公式(5)執行所述根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值的處理:
式(5)
其中,m為翻譯特徵的個數,hi(f,e)為第i個翻譯特徵,λi為第i個翻譯特徵對應的特徵權重,e為所述初選詞,f為源語言的單詞,p(e|f)為初選詞e的翻譯機率。需要說明的是,公式(5)中的e是求和函式中的臨時變數,和求和符號一起使用表示對所有的初選詞求和。
在具體的實現方式中,依據公式(1)至公式(4)分別計算得到的神經網路翻譯模型的翻譯特徵hrnn、統計機器翻譯模型的翻譯特徵htp1、htp2和hlm,將上述多個翻譯特徵以及各自對應的特徵權重代入公式(5),計算每個所述初選詞的得分(即翻譯機率值),就可以採用得分排序方式從多個初選詞中選取候選詞。這裡,翻譯特徵不同,其對應的特徵權重所起的作用也不同。在實際套用中,由於源語言的單詞f一旦給定,公式(5)中分母部分的計算結果是一個常量,因此只需計算分子部分即可。
在步驟S140,根據預測得到的候選詞生成目標語言的語句。
為了能夠生成可讀性及流暢性強的語句,進一步地,步驟S130還可以包括:依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係。仍以圖2為例,由於任一所述候選詞的預測處理均是基於神經網路翻譯模型的,而神經網路翻譯模型的重要特點就是考慮上下文的關聯關係,使得翻譯結果更加流暢。圖2示出的候選詞之間的箭頭線代表了候選詞之間的關聯關係。例如,位於第二位的候選詞taxi與位於第一位的候選詞the是相關聯的。
相應地,根據該發明的示例性實施例,步驟S140包括:根據具有關聯關係的所有候選詞生成目標語言的語句。例如,參照圖2,重複執行前述候選詞的預測處理步驟,直至預測到設定的結束詞(EOS)為止。圖2中使用棧的結構描述候選詞及各個候選詞之間的關係,第一個棧(Stack-1)中的詞語是位於目標語言的語句中第一位的候選詞,第i個棧(Stack-i)的詞語是位於目標語言的語句中第i位的候選詞,依據圖2示出的候選詞之間的箭頭線就可以查找到具有關聯關係的所有候選詞,從而生成目標語言的語句。
該發明實施例提供的基於神經網路模型的翻譯方法,在獲取源語言的語句之後,對其進行編碼得到向量序列,再基於向量序列逐詞地預測目標語言中相應的候選詞,在任一所述候選詞的預測處理過程中,首先從預設的翻譯詞表中獲取多個初選詞,基於結合了神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵的對數線性模型,計算每個所述初選詞的翻譯機率,根據翻譯機率計算結果從多個初選詞選取候選詞,最終,根據經上述預測處理得到候選詞,從而自動地生成長度適宜的目標語言語句,提高了翻譯結果的準確度、可讀性和流暢性。同時,降低了漏詞率。
實施例二
圖4是示出該發明實施例二的基於神經網路模型的翻譯裝置的邏輯框圖。可用於執行如圖1所示實施例的方法步驟。
參照圖4,所述基於神經網路模型的翻譯裝置包括語句獲取模組410、語句編碼模組420、候選詞預測模組430和語句生成模組440。
語句獲取模組410用於獲取源語言的語句。
進一步地,所述語句獲取模組410可包括以下單元之一:文本數據接收單元(未示出)用於接收文本數據,並將所述文本數據作為所述源語言的語句。
語音數據接收及識別單元(未示出)用於接收語音數據,對所述語音數據進行語音識別得到經語音識別的文本數據,並將所述經語音識別的文本數據作為所述源語言的語句。
圖片數據接收及識別單元(未示出)用於接收圖片數據,對所述圖片數據進行光學字元識別OCR得到經OCR識別的文本數據,並將所述經OCR識別的文本數據作為所述源語言的語句。
語句編碼模組420用於將所述源語言的語句進行編碼得到向量序列。
具體地,所述語句編碼模組420用於對源語言的語句進行分詞,將分得的多個分詞分別轉換成與每個所述分詞對應的詞向量,由多個分詞各自對應的詞向量得到所述向量序列。
候選詞預測模組430用於基於所述向量序列逐詞地預測目標語言中相應的候選詞。其中,在任一所述候選詞的預測處理中,從預設的翻譯詞表中獲取多個初選詞,並且基於對數線性模型計算每個所述初選詞的翻譯機率,以根據所述翻譯機率從所述多個初選詞選取所述候選詞,所述對數線性模型根據神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵建立的。
根據該發明的示例性實施例,所述候選詞預測模組430可包括:初選詞獲取單元(未示出)用於從預設的翻譯詞表中獲取M個詞語作為初選詞,M為正整數。
神經網路模型特徵計算單元(未示出)用於根據所述向量序列和在獲取M個初選詞之前預測出的候選詞,計算每個所述初選詞的神經網路翻譯模型的翻譯特徵。
統計機器模型特徵計算單元(未示出)用於計算每個所述初選詞的統計機器翻譯模型的翻譯特徵。
翻譯機率計算單元(未示出)用於根據計算得到的神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵,結合所述對數線性模型計算每個所述初選詞的翻譯機率值。
候選詞選取單元(未示出)用於對計算得到的M個翻譯機率值進行排序,並將與前N位的翻譯機率值相應的初選詞選取為所述候選詞,N為正整數,且N<M。
為了最佳化單詞互譯程度,提高翻譯質量,優選地,所述統計機器翻譯模型的翻譯特徵可包括雙向單詞翻譯模型特徵。
可選地,所述統計機器翻譯模型的翻譯特徵還包括N元語言模型特徵和/或詞懲罰特徵。通過N元語言模型特徵最佳化了翻譯結果局部的流利程度,結合詞懲罰特徵,對過短的翻譯結果進行懲罰,進而最佳化翻譯結果長度。
語句生成模組440用於根據預測得到的候選詞生成目標語言的語句。
為了能夠生成可讀性及流暢性強的語句,進一步地,所述候選詞預測模組430還可以包括:候選詞關聯單元(未示出)用於依據所述神經網路翻譯模型的翻譯特徵標記所述候選詞之間的關聯關係。
相應地,所述語句生成模組440用於根據具有關聯關係的所有候選詞生成目標語言的語句。
該發明實施例提供的基於神經網路模型的翻譯裝置,在獲取源語言的語句之後,對其進行編碼得到向量序列,再基於向量序列逐詞地預測目標語言中相應的候選詞,在任一所述候選詞的預測處理過程中,首先從預設的翻譯詞表中獲取多個初選詞,基於結合了神經網路翻譯模型的翻譯特徵和統計機器翻譯模型的翻譯特徵的對數線性模型,計算每個所述初選詞的翻譯機率,根據翻譯機率計算結果從多個初選詞選取候選詞,最終,根據經上述預測處理得到候選詞,從而自動地生成長度適宜的目標語言的語句,顯著提升了翻譯質量,同時提高了翻譯結果的可讀性和流暢性,降低了漏詞率。
在該發明所提供的幾個實施例中,應該理解到,所公開的裝置和方法,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模組的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
另外,在該發明各個實施例中的各功能模組可以集成在一個處理模組中,也可以是各個模組單獨物理存在,也可以兩個或兩個以上模組集成在一個模組中。上述集成的模組既可以採用硬體的形式實現,也可以採用硬體加軟體功能模組的形式實現。

榮譽表彰

2018年12月20日,《基於神經網路模型的翻譯方法及裝置》獲得第二十屆中國專利銀獎。

相關詞條

熱門詞條

聯絡我們