TM,即翻譯記憶,它是一個存儲了一個個“段”的資料庫,這些存儲了源文本和相應的語言的翻譯,這個“段”就是翻譯單元。翻譯記憶可以是用於幫助翻譯人員翻譯已翻譯的句子,段落或類似句子的單元(標題或列表元素),從而大幅度減輕譯員的負擔。
基本介紹
- 中文名:翻譯記憶
- 外文名:Translation Memory
- 目的:輔助人工翻譯
- 適用軟體:絕大多數CAT軟體
簡介
使用翻譯記憶庫
主要的優勢
確保翻譯檔案的一致性,包含通用定義、語法或措詞、以及專用術語。這針對多個譯者同時在翻譯一個專案或檔案時相當重要。
主要的障礙
翻譯記憶軟體並不是很容易的可以套用至既有的翻譯或是本土化(Localization)的流程之中。為了要使翻譯記憶的使用能夠有更大的效益,翻譯流程必須被重新規劃。
TMM的功能
離線功能
- 導入
這功能是用來將外部的文字與翻譯從文字檔傳輸到翻譯記憶庫里。導入功能的來源檔案可以是原生檔案,也可以是其他業界標準的翻譯記憶檔案。有時有些翻譯記憶庫是以其他形式儲存,則必須透過一些格式轉換才能進行導入。 - 分析
分析的過程可以再細分為下面幾項:
1.文句分析(Textual parsing)
辨識文句的標點符號相當重要,例如必須要能正確的辨認文句結尾的句點與縮寫的句點,正確的判定文句結尾的位置。其他應視為文句段落的標點符號或是標記也必須儘量的被辨識出來,例如在多數的狀況之下問號、驚嘆號等也是文句結尾的判定之一,很多狀況之下像是冒號、換行符號等也會被作為文句段落的辨識標記。在譯者正式開始翻譯之前通常都要先對文句進行標記,該動作是將不須被翻譯的符號或是段落給予特定標記,將必須被翻譯的文句給予另一種標記。
2.句法分析(Linguistic parsing)
句法分析旨在減少文句中基本形態字詞的數量,做法是從文章中萃取出專用術語、詞組等。
3.區段化(Segmentation)
其目的是找出最有用的翻譯單元(Translation Unit)。區段化有點類似文句分析,他是在單一語言下進行,並使用可定義的規則來進行表面的分析,例如可定義哪些特定類型的符號或是標記應被納入翻譯單元里,哪些符號應被視為結束一個翻譯單元的點。舉例來說,一個冒號的前後文可以視為一個完整的段落(翻譯單元),但在一些狀況下冒號前後也會被拆解為兩個翻譯單元。假設譯者手動改變了翻譯單元,例如合併了某兩個翻譯單元為一個,或是將一個翻譯單元拆解為兩個或多個,則下一次的檔案版本更新將會喪失這個翻譯單元的相符性,因為下一版本仍就會以既定的規則來對檔案進行區段化。
4.平行對齊(Alignment)
這是將來源語言與目標語言文字平行對應對齊的工作。區段化的標準將會影響平行對齊的效果,通常也得仰賴好的平行對齊算法來校正區段化的錯誤。
5.專用術語抽出
前一版本的詞語辭典可被拿來使用,或是再行針對既有的檔案抽取未知的術語。通常可以藉由文字分析的統計來抽出這些詞語,例如從文字的重複性來加以分析。
線上功能
- 更新
- 自動翻譯
- 共同作業
- 文字記憶
“文字記憶”(Text Memory)是基於LISA OSCAR xml:tm 標準而定義的。檔案記憶包含了作者(譯者)的記憶與翻譯記憶。 - 作者(譯者)記憶
在創作(翻譯)的過程中,每一個文字單元都會被賦予一個唯一的辨識碼。文字單元是構成文句的一個子集。 - 翻譯記憶
在翻譯過程中,唯一個辨識碼會被記憶下來,如此則目標語言的檔案皆會被一一的對應到每一個文字單元的層級。如果來源檔案隨後被更改而異動,則檔案里沒有異動的文字單元將可直接的被轉一到新的目標語言版本而不須譯者而額外的檢閱、翻譯等互動。這是翻譯記憶里的“精確”(exact)或是“完美”(perfect)相符的概念。
翻譯記憶庫種類
- TMX
Translation Memory Exchange format(翻譯記憶交換格式),TMX標準實現不同翻譯軟體供應商之間翻譯記憶庫的互換,為翻譯社群所採納的匯入匯出翻譯記憶的最佳辦法。 - TBX
Termbase Exchange format(Termbase交換格式),該標準允許含有詳細辭彙資訊的術語資料作互換。術語庫交換標準的 TBX 是“ Term-Base eXchange ”的縮寫。 TBX 基於 ISO 術語數據表示的 XML 標準,由 LISA 的 OSCAR 制定和維護。一個 TBX 檔案就是一個 XML 格式的檔案。採用 TBX ,用戶可以很方便的在不同格式的術語庫之間交換術語庫數據。這極大地促進了公司內部與外部在術語管理的整個周期內的數據處理。普通用戶也可以很方便的訪問大型公司公開在網上發布的術語庫內容。 - SRX
RX 標準解決了不同本地化語言工具處理“斷句”規則不統一,從而導出的翻譯記憶交換( TMX )檔案的不方便處理的問題。 SRX 是“ S egmentation R ule e X change ”的縮寫,是基於 XML 的標準, SRX 1.0 在 2004 年 4 月成為 LISA OSCAR 的官方標準。遵守 SRX 標準,不同工具、不同本地化公司創建的翻譯記憶( TM )檔案可以很方便的交換翻譯記憶庫和翻譯記憶交換檔案。 - GMX
GMX 是“ Global Information Management Metrics eXchange ”的縮寫,它是一個家族標準,包括“工作量( Volume )”,“複雜度( Complexity )”和“質量( Quality )”三個子標準,即 GMX-V , GMX-C 和 GMX-Q 。 - OLIF
開放詞典交換格式。1990年作為一個數據詞典交換選項(尤其是MT)和術語資料庫發布,OLIF已經演變成為一個標準。 - XLIFF
XML Localisation Interchange File Format(XML本地化交換檔案格式)。其目的是提供所有當地語系化提供者都能了解的單一檔案交換格式。XLIFF是業界使用XML格式來交換資料時的慣用方式。 - TransWS
Translation Web Services(翻譯線上服務). - xml:tm
翻譯記憶軟體
自由開放原始碼軟體
- OmegaT
跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。直接支持MS Office 2007格式、OpenOffice.org格式、OpenDocument Format(ODF)、DocBook XML、(X)HTML、HTML Help Compiler files(HTML幫助編譯檔案)、純文字檔案、java .properties、PO。授權形式:GPL。需求環境:Java JRE。 - Open Language Tools
跨平台的電腦輔助翻譯工具,沒有語言限制(來源和目標)。以自有格式(compressed XLIFF 1.0)運作,提供多種格式相互轉換:HTML、DocBook SGML、JSP、XML(需要設定檔)、OpenOffice.org 格式、Open Document Format、純文字、PO、java .properties、Java RessourceBundle、Mozilla .DTD 資源檔、授權形式:CDDL。需求環境:Java JRE - Transolution
跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。支援XLIFF檔案,授權形式:GPL。需求環境:Python。
專屬但是免費的軟體
- Appletrans
Mac OSX平台的翻譯工具,無語言限制(源語言和目的語言)支持RTF, HTML, XML。 - MemoQ 4Free
Windows平台的翻譯工具。不支持亞洲語系(包括中日韓語種)支持MS Office格式(.doc, .xls, .ppt, .rtf), HTML, 無格式文本, TTX, Framemaker .mif 格式. ,需要.NET 2.0支持。 - Wordfast Anywhere
是Wordfast的雲端版本的翻譯記憶的軟體。支持多種格式檔案(包括PDF),可以免費註冊使用。
專屬且要付費的軟體
- across:自由譯員可以免費使用
- AidTrans Studio Professional:提供免費的beta版本下載,大約2000年以後已經無更新版本。
- Araya Translation Editor
- Déjà Vu:提供試用版
- Heartsome Translation Suite:提供全功能試用版和有限功能的免費版
- Linear B Searchable
- Lingobit Localization Tool:具有翻譯記憶的軟體當地語系化工具
- MetaTexis:提供試用版(Evaluation version) - 需要安裝在Microsoft Word上
- MLTS:支持翻譯阿拉伯語。
- MemoQ Translator Pro:提供免費的自由譯者版本(freelancer's version)
- SIMILIS (2nd Generation Translation Memory):支持多種作業系統(Cross-platform)及XLIFF 1.2標準
- Logoport™:Lionbridge公司的線上多人協同作業CAT工具
- MultiCorpora MultiTrans
- Sisulizer Localization Tool:具有翻譯記憶功能的軟體當地語系化工具
- STAR Transit:提供免費的自由譯者版本(freelancer's version),稱為SDLX Edit Lite
- TRADOS
- TransAssist
- Translatum
- T-Remote Memory
- Wordfast:具有功能限制的共享軟體(shareware)版本,只有在翻譯記憶中儲存超過500個翻譯單位(translation unit)時才需要註冊
- XTM:基於翻譯記憶的完全開放的軟體,記憶庫格式為:xml:tm,支持所以基於XML的SRX, Unicode Standard Annex #29-9, XLIFF 1.2, GMX-V, TMX, DITA and W3C ITS。
- 雪人CAT:國產的一款CAT軟體,有個人版和標準版,個人版免費,但僅支持TXT格式,如果不排版,對於個人用戶還是足夠使用。如果需要更多格式支持以及排版等需求,只能使用標準版。