Galaxy AI目前支援16種語言,透過即時的終端翻譯功能,助力更多用戶打破語言隔閡。三星開啟行動AI新紀元,透過三星新聞中心專訪世界各地的三星研究院,一探Galaxy AI的誕生過程,以及三星如何克服AI研發過程的重重挑戰。本系列報導的第一輯探討決定所需數據的方法,而本輯則聚焦於方言的複雜任務。
教導AI模型學習一門新語言是相當複雜的過程,但若要學習的不是單一語言,而是一系列的多種方言呢?三星約旦研發中心(SRJO)面臨的便是此種挑戰。儘管阿拉伯語在通話即時翻譯等Galaxy AI應用中統一歸類為一種語言選項,但團隊必須將橫跨中東與北非地區的各式阿拉伯方言納入其中,且每種方言的發音、詞彙和文法均不盡相同。
阿拉伯語是全球使用最廣泛的六種語言之一,每天有超過4億人使用(註一),並可分為Fus’ha(現代標準阿拉伯語)和Ammiya(阿拉伯方言)兩種形式。Fus’ha通常用於公共場合、官方活動和新聞廣播,Ammiya則適用於日常對話。目前有逾20個國家使用阿拉伯語,而區域內共發展出約30種方言。
不成文的規定
SRJO團隊意識到方言間存在的多樣性,採用一系列技術來辨識及處理每種方言的獨特語言特色。此方法對於確保Galaxy AI能準確判讀區域性語言並產出回覆的細微差異來說至關重要。
阿拉伯語開發團隊專案負責人Mohammad Hamdan表示:「阿拉伯語和其它語言不同之處在於,其受詞的發音會因句中的主詞和動詞而有所不同。我們的目標是開發出能理解所有方言,並以標準阿拉伯語應答的模型。」
文字轉語音(TTS)是Galaxy AI通話即時翻譯功能的組成要素,可將口語翻譯成書面文字,再以語音重現,讓使用不同語言的用戶得以互相交流。而TTS團隊則因阿拉伯語的特殊性,面臨著獨特的挑戰。
阿拉伯語使用變音符號為宗教性文字、詩歌和語言學習書等內容的詞彙標示發音。雖然母語者普遍能識讀變音符號,但因為不會標記於日常書寫中,使得機器難以將純文字轉換為音素(phoneme),即語言中的最基本發音單位。
Haweeleh解釋道:「我們很難找到能準確呈現變音符號正確用法的高品質且可靠的資料集,因此團隊必須設計出一個神經模型,精準地預測並補上那些缺失的變音符號。」
神經模型與人腦的運作方式雷同。如欲預測變音符號,模型必須研究大量的阿拉伯文字、學習語言規則,並理解詞彙在不同情境下的使用方式。例如,單字的發音會因其描述的動作或性別而有差異。團隊透過大量培訓大幅提升阿拉伯語TTS模型的準確度。
增強理解能力
SRJO團隊亦需從各方來源蒐集不同的錄音檔進行轉錄,並著重於特殊的發音、單字和慣用語。負責建立資料庫的團隊成員Ayah Hasan表示:「我們組建一支以方言為母語、能分辨其細微差異的團隊,他們會聆聽錄音檔,並手動將口語轉換成文字形式。」
上述工作是提升自動語音辨識(ASR)的核心流程,使Galaxy AI能夠處理豐富多變的阿拉伯方言。ASR為Galaxy AI具備即時理解並回應的能力的關鍵。
Mohammad Hamdan亦為該專案的ASR負責人,他指出:「在單一模型內建造能支援多種方言的ASR系統,是個非常艱鉅的任務。我們需要深入了解語言的複雜性、仔細地篩選資料並擁有先進的建模技術。」
創新里程碑
歷經數月的計畫、建模與測試,SRJO團隊準備好於Galaxy AI中推出阿拉伯語選項,使更多用戶實現跨國交流。該團隊使阿拉伯母語者得以使用Galaxy AI服務,為他們和世界各地的人們降低語言和文化門檻。SRJO在過程中建立可推廣至世界各地的最佳實踐,但此次的成功僅是開端,團隊將繼續精進模型,提升Galaxy AI語言能力的品質。
在下一輯的《學習曲線》專題報導中,三星新聞中心將前往越南,探討團隊如何優化語言資料,以及如何訓練出有效的AI模型。
阿拉伯語為Galaxy AI新支援的語言和方言之一,用戶可從「設定」應用程式下載。通話即時翻譯及翻譯助理等Galaxy AI語言應用亦可在支援三星One UI 6.1的Galaxy裝置上使用(註二)。
註一:聯合國教科文組織(UNESCO)2023年世界阿拉伯語日,https://www.unesco.org/en/world-arabic-language-day。
註二:One UI 6.1率先於Galaxy S24系列裝置推出,後續延伸支援其它Galaxy裝置,包括S23系列、S23 FE、S22系列、S21系列、Z Fold5、Z Fold4、Z Fold3、Z Flip5、Z Flip4、Z Flip3、Tab S9系列及Tab S8系列。