前言:想要寫出一篇引人入勝的文章?我們特意為您整理了融合多語言交互下的在線翻譯輔助系統(tǒng)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著機器學習技術(shù)的發(fā)展,目前翻譯行業(yè)也逐漸引入該技術(shù)用來提升翻譯效果。文章以實現(xiàn)在線學習為目標,為了學習人員能夠在不斷糾正過程中進行學習,設(shè)計了一套端到端平臺,該平臺將機器翻譯服務(wù)器集成到專業(yè)翻譯人員最常用的用戶界面中,實現(xiàn)在機器不斷從人的選擇中學習并根據(jù)特定領(lǐng)域或用戶風格調(diào)整模型的同時,節(jié)省學習人員后期的編輯工作,提升了在線翻譯過程中的輔助效果。
關(guān)鍵詞:機器學習;翻譯行業(yè);端到端平臺;翻譯模型
引言
在翻譯行業(yè)中,翻譯的效果至關(guān)重要,直接關(guān)系著業(yè)務(wù)人員的工作效率。如今,翻譯行業(yè)的高效性需求必須滿足快速的商業(yè)需求,為此,需要在較短的時間內(nèi)為用戶提供準備高質(zhì)量的翻譯結(jié)果。隨著機器學習技術(shù)的發(fā)展,文獻[1]中提出使用支持向量機(一種監(jiān)督學習模型)獲得了安德森雜質(zhì)模型的格林函數(shù),用來實現(xiàn)自學習提升。機器學習技術(shù)的快速發(fā)展,為翻譯行業(yè)提供了可高效、快捷翻譯結(jié)果的途徑,即“人性化”翻譯,稱為后期編輯(PE),該模式目前在翻譯行業(yè)中被證明是有效的[2],被稱為是機器翻譯(MachineTranslation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業(yè)的重要內(nèi)容。PE過程本身就在不斷生成新的雙語數(shù)據(jù),此數(shù)據(jù)通常用于創(chuàng)建特定于域的語料庫,可用于將系統(tǒng)從更廣泛的域改編為特定的域客戶端或樣式。在線學習(OnlineLearning,OL)范式指在PE過程中執(zhí)行這種調(diào)整[3]:每次用戶驗證后期編輯的翻譯時,系統(tǒng)都會在考慮到此數(shù)據(jù)的情況下進行更新。因此,當產(chǎn)生下一個翻譯時,系統(tǒng)將考慮先前的版本,從而將產(chǎn)生更好的翻譯(或更切近于人類語言用于規(guī)范)。OL范式已迅速引起研究人員和行業(yè)的關(guān)注,基于短語的統(tǒng)計MT系統(tǒng)從用戶后期編輯中逐步改編而成,最近,OL技術(shù)也被應(yīng)用于神經(jīng)機器翻譯(NMT)系統(tǒng)[4],本文介紹了內(nèi)部OL框架的演示系統(tǒng),在該系統(tǒng)中,將翻譯服務(wù)器與翻譯程序的用戶友好界面SDLTradosStudio集成在一起,從而提升了多語言交互翻譯過程中的效率。
1系統(tǒng)設(shè)計
從用戶在PE流程中生成的后期編輯中提升翻譯效果,為此,通過即時更新系統(tǒng),即,一旦者確認了句子,便會立即進行更新,在用戶確認編輯之后,立即使用源語句和后編輯作為培訓來更新NMT(NeuralMachineTranslation)系統(tǒng)的模型。這種適應(yīng)可以在梯度下降之后進行,梯度下降是神經(jīng)網(wǎng)絡(luò)的常規(guī)訓練方法。本文設(shè)計的OL框架體系結(jié)構(gòu)由三個主要模塊組成:MT引擎、用戶界面和鏈接兩者的翻譯服務(wù)器。此外,還添加了一個日志記錄選項,以使用戶能夠跟蹤擊鍵、時間和鼠標移動等信息,該系統(tǒng)的體系架構(gòu),如圖1所示。翻譯過程包括將機器翻譯傳遞到用戶界面,培訓過程使用用戶提供的反饋對MT引擎進行再培訓。這兩個過程都是通過客戶端-服務(wù)器通信執(zhí)行的,接下來,詳細描述各個模塊的具體功能。(1)機器翻譯引擎MT引擎的核心由生成翻譯的模型組成,可以在需要時進行重新訓練。每個翻譯項目都有其自己的模型,其模型是根據(jù)項目的需要設(shè)置的,所有模型都是基于神經(jīng)網(wǎng)絡(luò)的,并使用OpenNMT-py進行了訓練[5]。每個MT模型都有其自己的配置文件,其中包含個性化的翻譯和OL選項,例如標記化、子詞分段和學習率等。(2)翻譯服務(wù)器翻譯服務(wù)器與MT模型進行通信,以生成翻譯并根據(jù)用戶的版本來修改系統(tǒng)。該服務(wù)器基于OpenNMT-py的REST服務(wù)器,并使用HTTP協(xié)議定義消息以服務(wù)于用戶的請求。翻譯服務(wù)器的代碼已公開且可用,在OpenNMT-py中創(chuàng)建了一個分支,該分支具有此服務(wù)器并與其所有不同模型兼容。用戶界面和MT引擎之間的通信是通過GET和POST請求執(zhí)行的。服務(wù)器等待翻譯請求,收到請求后,這些請求將以JSON格式發(fā)送到機器翻譯引擎,當用戶對機器翻譯片段進行更正時,將更正發(fā)送到翻譯引擎。(3)用戶界面在翻譯行業(yè)中,翻譯人員最常用的用戶界面是SDLTradosStudio。系統(tǒng)用戶界面,如圖2所示。用戶在如下情況自動獲得機器翻譯輸出:單擊界面中線段的目標部分,然后,用戶對片段進行后期編輯,并在糾正翻譯后對其進行確認。SDL允許開發(fā)TradosStudio插件來增強和擴展該工具。此外,SDL擁有龐大的開發(fā)人員社區(qū)[5],可通過附加軟件和應(yīng)用程序來更快的學習該框架。本文將自適應(yīng)框架整合為TradosStudio插件,該插件將用戶界面、TradosStudio與翻譯服務(wù)器互聯(lián)。當用戶確認后期編輯時,已審核的細分將發(fā)送回MT引擎,以使用此新信息進行重新訓練。(4)日志記錄為了衡量PE過程中OL的翻譯效率和有效性,系統(tǒng)集成了工具來記錄在后期編輯給定文件中涉及的時間、擊鍵和鼠標移動等動作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個XML日志文件,其中包含每個段的所有按鍵時間信息,如圖3所示。利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專業(yè)翻譯人員在模擬和真實環(huán)境中進行的初步實驗[6]報告稱,MT系統(tǒng)生成的翻譯質(zhì)量有了顯著提高。
2實驗分析
本章節(jié)分析了在用戶試用中獲得的結(jié)果,如表1所示。表1顯示了與使用參考樣本進行更新的非NMT系統(tǒng)相比,NMT系統(tǒng)的翻譯質(zhì)量的結(jié)果[7-9]。通過這種綜合設(shè)置獲得的結(jié)果支持通過在線學習進行智能化翻譯的有用性。在所有情況下,NMT系統(tǒng)都比非NMT系統(tǒng)獲得更好的TER和BLEU(機器翻譯的評價指標)。我們從TER的角度獲得的結(jié)果表明后期編輯這些樣本所需的人力更少。接下來進行人工后期編輯實驗,三名專業(yè)翻譯參與了實驗。對于NMT系統(tǒng)測試,所有后期編輯人員都使用相同的系統(tǒng)啟動任務(wù),該系統(tǒng)使用每個人自己的后期編輯工具進行調(diào)整。因此,在在線學習過程結(jié)束時,每個后期編輯都獲得了相關(guān)的翻譯服務(wù)。對于靜態(tài)實驗,最初的NMT系統(tǒng)在整個過程中均保持不變,為了避免多次翻譯相同文本的影響,每個參與者在每種情況下后編輯了一個不同的測試集,如表2所示。該實驗的測試結(jié)果如表3所示。這些數(shù)字是不同后期編輯所獲得結(jié)果的平均值,對于集合T1,每個句子的后期編輯時間的大幅減少尤其重要(每個句子平均7.5秒)。在測試集T2中,NMT系統(tǒng)的后期編輯時間也比非NMT系統(tǒng)的稍短一些,為0.7秒。
3總結(jié)
本文介紹了一個在線翻譯框架,該框架結(jié)合了通過在線學習對系統(tǒng)進行即時調(diào)整的功能。這種模式允許翻譯人員/后期編輯人員產(chǎn)生更多具有人類品質(zhì)的文本,即提升翻譯效率,因為系統(tǒng)不斷從用戶的后期編輯中學習,從而避免了重復錯誤。本文已將MT服務(wù)器集成到SDLTradosStudio用戶界面中,實驗結(jié)果證明該系統(tǒng)在翻譯過程中有較高的效率。
參考文獻
[7]林寒.基于多語言交互的英語翻譯在線輔助系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(6):22-25.
[8]夏吾吉,華卻才讓.基于有限狀態(tài)自動機阿拉伯數(shù)字與藏文數(shù)詞自動翻譯[J].計算機工程與科學,2018,40(3):550-554.
[9]余倩.基于特征提取算法的交互式英漢翻譯系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2018,41(4):161-163.
作者:胡曉榕 單位:咸陽師范學院