2012年10月4日 星期四

輔助翻譯的軟體


從好幾年以前,我就對翻譯有興趣。在清華大學的圖書館看了好幾本有關翻譯理論的書以後,發現翻譯的理論大概就是那些,所以我欠缺的只是實際翻譯的經驗。

以前翻譯的時候,是在Microsoft Word裡面打字,同時不斷地排版,並用Word 內建的字典查查單字。
其實我現在覺得排版跟打字要分開,不然很浪費時間,現在也不大會用word內建的字典來查單字了,因為現在我有最強大的 GoldenDict 可供驅策。

那時候翻譯的是「信心的講辭」(Lectures on Faith),和新約聖經,想到以前那台電腦的配備,跟現在真是天差地遠。

以前筆電的CPU我都不知道他的時脈是怎樣的,記憶體也才256MB,硬碟好像才40GB,進Windows XP要好久,開翻譯的文件也要好久。
為了增快翻譯速度,後來就灌了Open Office, 並且開機直接使用安全模式。
現在想想也覺得很離譜,應該很少人覺得電腦速度太慢,而直接選安全模式開機來使用的。



翻譯的過程中,往往會遇到重複的片語或句子,不過我自己常忘記我當初用的是什麼詞,所以還要回頭找找看。然後經常重複前後查找,造成翻譯效率低下。

直到前幾個禮拜,我才發現原來有輔助翻譯的軟體可以幫人記住辭彙,提高效率。
前幾個禮拜開始試用OmegaT,也自己建立了翻譯記憶庫來使用,
因為OmegaT的翻譯記憶的格式是公開的,架構也很簡單,我自己做了一些翻譯記憶的檔案(.tmx),包括四部標準經文所有的節、牛津英漢雙解辭典所有的例句、以及網路上收集到的片語的翻譯記憶。

只要翻譯的文件中引用了經文(整節一模一樣,或非常類似),軟體就會自動從翻譯記憶中提取出相應的翻譯;只要翻譯的文件中出現一段glossary 裡面有的片語(不需要整句話符合,只需要句子中的某個片語符合),軟體就會自動提示。

以OmegaT 為例,首先要建立一個方案(New project),
比方說,方案名稱為"test",軟體會在方案的目錄下建立幾個子目錄,
只要把tmx檔案放到翻譯記憶的目錄底下(test\tm\auto\),這樣軟體就會自動偵測。
另外,把Glossary 檔案放到單字庫目錄底下(test\glossary),軟體就可以直接使用該單字庫。
至於裡面的dictionary 資料夾,可以放stardict 格式的字典檔,翻譯時,軟體會自動查字典。


後來基於百尺竿頭,更進一步的心理,我又試用了塔多思,結果發現要轉檔才能使用原本我建立的翻譯記憶和glossary,而且glossary 在使用上無法像在Omega T裡面這麼順利,所以我又決定回到Omega T的陣營。

前陣子也看了如何用python來讓中文句子分詞的方法,希望可以建構更完整的翻譯記憶和glossary 給OmegaT翻譯使用,不過目前在實行上有點問題,尚無法成功。
因為前個禮拜我在製作上一期總會大會的利阿賀拿中英對照時,發現中文的句號和英文的句號出現的次數不一樣,所以要用人工一一斷句,才能做成「翻譯記憶」來使用,假如能有個程式幫我自動斷句,那就會省下好幾小時的時間了。

2012/10/12 後記:網路上有 LF aligner, 對齊的正確率很高,今天只花了三個小時就把教會總會大會網站上所有的中文演講和英文演講對齊了,正確率可能有超過5成,做出蠻堪用的TMX檔。

我最近覺得,如果教會翻譯部的人員,能夠建立從以前到現在所有翻譯過的文件的「翻譯記憶」和 glossary, 這樣在翻譯新的文件的速度會非常快(個人估計會快10%),因為大部分的句子可能以前就翻譯過了,這樣軟體會直接調用先前的翻譯,所以我們就不需要重新翻譯一次,造成人力資源的浪費。

3 則留言:

  1. 黄弟兄:

    後生可畏!很佩服您的用心和洞見。 20 多年前我在翻譯部,我完全同意您說的:...翻譯部的人員,能夠建立從以前到現在所有翻譯過的文件的「翻譯記憶」和 glossary, 這樣在翻譯新的文件的速度會非常快(個人估計會快10%),因為大部分的句子可能以前就翻譯過了,這樣軟體會直接調用先前的翻譯,所以我們就不需要重新翻譯一次,造成人力資源的浪費。

    回覆刪除
    回覆
    1. 感謝您的讚美~
      我覺得目前的問題就是如何取得以前譯文的原始檔,並做出翻譯記憶庫。
      我相信許多紙本教材應該是有原始的文字檔。
      因為PDF版的電子檔要做出翻譯記憶太難了,原始的文字檔才比較容易做出好的翻譯記憶庫。

      刪除

Related Posts Plugin for WordPress, Blogger...