在享負盛名的國際機器翻譯大賽(Workshop on Machine Translation, WMT)上,三星電子與來自世界各地的頂尖研究人員一同探討如何運用創新機器與電腦程式,精準理解人類語言。
三星研究院與波蘭三星研發中心(SRPOL)參加此次機器翻譯品質競賽,與其他科學家團隊和實驗室一較高下。比賽共分成八項翻譯任務,世界知名企業和各大學研究團隊皆有組隊參賽。
三星研究院全球AI中心語言實驗室挑戰的是生物醫學翻譯任務,旨在評測生物醫學領域文本的句子翻譯品質。任務共涉及14種語言組合,包括英文、法文、德文和西班牙文等,三星在英文→西文和西文→英文兩項語言組合中勇奪冠軍。考量生物醫學領域文本含有大量專業術語,三星機器翻譯技術的表現著實可圈可點。
就專業領域翻譯而言,術語翻譯是決定譯文品質的重要關鍵之一。即使是同一個字詞,譯文可能因不同領域而異,且與一般詞彙相比,專業術語的使用頻率較低,增加機器學習的難度。為突破技術限制、提升專業術語翻譯品質,三星研究院全球AI中心語言實驗室結合軟性限制術語翻譯(soft-constrained terminology translation)技術,在輸入端加入目標語言的術語限制,並以原文句子作為提示,盡可能優化專業術語的翻譯結果。三星研究院持續鑽研專業領域翻譯,並在其「SR Translate」系統中(https://translate.samsung.com)提供專利翻譯服務(韓文→英文)。
波蘭三星研發中心亦挑戰兩項一般機器翻譯任務,在英文→俄羅斯文和英文→克羅埃西亞文兩種語言組合取得第二名的優異成績。
比賽中,WMT官方僅提供有限的語料庫(結構化的文字資料),讓參賽隊伍進行翻譯模型分析。波蘭三星研發中心團隊將優異表現歸功於資料預先處理和過濾等流程,以擴充與完善語料庫品質。此外,團隊亦專注於優化模型架構和AI訓練過程。
波蘭三星研發中心機器翻譯團隊以擴充的語料庫為基礎,運用名為BERT(Bidirectional Encoder Representations from Transformers,雙向編碼轉換器)的機器學習架構打造出分類器(classifier)。此分類器成功將語料庫的數百萬筆句子按領域分類,幫助團隊建立一般領域和醫藥與法律文本的翻譯模型。
波蘭三星研發中心在機器翻譯的成就有目共睹,2017至2020連續四年在國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation,IWSLT)拔得頭籌。IWSLT為歷史悠久的機器翻譯大賽之一。
技術發展至今,距離機器語言理解程度媲美人類的目標指日可待。隨著機器翻譯和語言理解逐漸融入日常生活,三星將持續鑽研先進技術並研發實用工具,幫助用戶克服語言藩籬,享受便利美好的生活。