思必馳翻譯算法是思必馳科技股份有限公司推出的深度合成服務算法。該算法套用於機器翻譯場景,服務於企業端客戶,根據用戶輸入的待翻譯文本,生成指定目標語種的翻譯內容。
2024年4月,思必馳翻譯算法通過備案。
基本介紹
- 軟體名稱:思必馳翻譯算法
- 開發商:思必馳科技股份有限公司
- 備案號:網信算備320506772010401240039號
算法原理,運行機制,套用場景,算法目的,
算法原理
思必馳翻譯算法將語音識別的方言或外語文本翻譯成國語。為了使翻譯結果適用自然語言解析模組,我們希望翻譯結果有如下特徵:保持語義不變,保持關鍵實體詞不變,簡化原句可持續升級。為實現上面目標,方言翻譯包含四個模組:模型翻譯、規則翻譯、熱更新翻譯、詞庫。各模組之間滾動更新,形成良性更新機制。
一、模型翻譯
在模型方面,構建特有的編碼解碼模型框架,並結合數據增強、預訓練等手段,使得模型在低資源情況獲得良好效果
在數據方面,專業標註團隊提供了高質量訓練數據,尤其在方言文本規範和翻譯結果的語義解析適配上做了大量工作。
在資源占用方面,通過模型壓縮、數據蒸餾、詞表最佳化等方法,將模型參數量壓縮到原始模型的十分之一,翻譯效果幾乎不下降。
二、規則翻譯
規則翻譯包含高頻語句。規則翻譯速度是模型翻譯速度的幾十倍,將某些場景下(比如,控制類說法)的高頻說法,直接使用規則翻譯,可以大大提升翻譯效率和用戶體驗。另外,根據開發人員的經驗,在寫規則過程中,可以將方言或外語說法歸一化為容易解析的說法,不需要嚴格遵守逐字翻譯,可以提高解析準確率。
三、熱更新翻譯
用於線上緊急的問題修復。比如,用戶輸入:掃塗機歇睏一久仔,翻譯系統結果為: 掃塗機休息一會兒。說明當前系統不支持“掃塗骸”的說法,可以新增熱詞:掃塗。再次輸入:掃塗骸機歇睏一久仔,翻譯系統的結果實時修改為:掃地機休息一會兒。
四、詞庫
當前已收集百萬級高質量地址、歌曲名、影視名、人名、作品名等等,用於實體詞翻譯。
運行機制
採用使用一個模型解決多個外語語種和方言的翻譯方案,並且搭配完善的定製化流程。翻譯請求進來後,優先使用句子定製化翻譯,其次熱詞翻譯,最後使用模型翻譯。
翻譯模型將用戶輸入編碼成高維空間的向量,通過大量線性和非線性疊加運算,得到生成詞的機率,取每個位置機率最大的詞組成的句子,作為翻譯的輸出結果。
模型部署在CPU伺服器上,支持多並發請求。系統提供了多外語多方言跟中文互譯的請求接口。
套用場景
1.人機互動系統的跨語種遷移:基於現有中文國語對話系統,通過增加翻譯模組的方式,快速將系統遷移為方言(外語全鏈路對話系統。
2.會議翻譯:將翻譯模型套用於會議線產品的實時翻譯字幕。
3.客服翻譯:客服進行電話或線上服務時,實時進行雙方語種互翻。
4.其他文本類翻譯
算法目的
算法的目的是滿足各個業務線對翻譯的需求,提升人機互動體驗。此外,通過對現有中文對話系統的快速遷移,達到降本增效的目的。