三星正如火如荼開拓旗艦行動AI體驗。三星新聞中心專訪世界各地的三星研究院,深入了解Galaxy AI如何協助用戶發揮極致潛能。Galaxy AI目前支援16種語言,憑藉通話即時翻譯、語音翻譯、筆記智慧助理和瀏覽助理等終端內建翻譯功能,使更多用戶即使在離線狀態也能拓展語言能力。團隊稍早造訪約旦,一窺擁有多種方言的阿拉伯語系,在開發AI模型時所面臨的複雜難題。本次將前往越南,探索AI模型的資料建置過程。
在越南文中,「鬼魂」、「墳墓」和「母親」的發音差異微乎其微。全球有9,700萬人使用越南文,而上述三個詞分別對應為音譯「ma」、「mả」和「má」,區別只在於聲調,這顯示了AI在學習語言時的難度之高,因為AI不僅難以直接辨別語境和對話情緒,也難以理解語句背後的意圖。
三星越南研發中心(SRV)運用精細的資料,協助AI模型正確判讀語言中最細微的差異。
數據的品質將直接影響自動語音辨識(ASR)、神經機器翻譯(NMT)以及文字轉語音(TTS)的精準度。此三大技術應用於Galaxy AI通話即時翻譯、語音翻譯、訊息即時翻譯智慧助理和瀏覽助理等功能,致力破除語言藩籬。
災難級挑戰
SRV的NMT負責人Ngô Hồng Thái表示:「越南文是一種複雜多樣的語言,表達方式相當豐富,許多細微之處難以捕捉。」在Galaxy AI支援的16種語言中,越南文的開發尤其困難。
在繼續解釋開發過程所面臨的難題之前,Thái補充:「對我來說,為越南文建立AI模型,比颱風還要更令人畏懼!」
越南文是一門聲調語言,具有六種不同音調。如同上述「ma」的例子,發音上的細微差異會大幅改變語意,因此在研發上必須非常注重細節。
SRV的ASR負責人Bui Ngoc Tung指出:「發音相似的詞語在拆解後,單一字詞會產生數個短區段,或稱為『訊框集』。AI模型會區分20毫秒左右的短音訊訊框,辨識字彙與特定連續訊框之間的關聯,因此團隊必須在AI學習的早期階段投入大量心力。」
此外,同音異義詞和同形異義詞在越南文中相當普遍,人們通常可依靠上下文和對話中的非語言元素,區別發音相同或拼字相同但意思不同的字。然而,AI模型必須經過訓練,才能正確分辨語調和相似詞彙。
Thái解釋:「這並不是一項簡單的任務。資料必須重質且重量,才能讓AI有能力判斷越南文中的細微差異。」
嚴謹的前置作業
資料精細化流程共分為三個步驟:首先,用於訓練AI模型的音訊和文字必須經過審閱和修正。接著,針對此資料集進行隨機抽查,確認整體品質。最後,資料集需進行標準化和淨化,才能用於訓練。
Nguyen Manh Duy為SRV的TTS負責人,負責監督資料庫建立流程。他表示:「團隊仔細地執行了一系列的測試,確保資料庫的準確度。過程中遭遇了許多意外的問題,包括腳本中有拼字錯誤、錄製音訊時收錄了背景噪音或發音錯誤。我們花了大量的時間去完善並優化訓練資料。」
在數據精煉過程中,將AI數據從優良提升到卓越的關鍵要角,正是軟體品質工程(SQE)團隊。該團隊在測試和精進AI語言數據品質方面發揮重要作用,並與AI語言開發專案團隊密切合作,實現此目標。
除了語言上的獨特挑戰,與其他廣泛使用的語言相比,越南文的開放性語料相當稀少。Duy補充道:「這也是資料精細化階段如此重要的原因。由於來源有限,每一份資料均必須百分之百可靠,沒有出錯的餘地。」
此外,越南文的AI模型必須同時考量語調和地區差異。為了提升AI模型的精準度,團隊自越南北中南各地的口音收集大量資料,也因此產生了眾多需要精細化和驗證的資料。
精益求精
SRV開發人員在歷經數月的努力後,成功使越南文成為Galaxy AI首批支援的語言。儘管取得了成功,團隊仍馬不停蹄地提升越南文的Galaxy AI體驗。
SRV的AI語言開發專案負責人Tran Tuan Minh表示:「我們會採納用戶的回饋,改善Galaxy AI中的詞語與慣用語,持續不斷地優化AI模型。目前僅是向更開放的世界邁出第一步,未來還有諸多事物需要共同探索。」
於學習曲線下一篇報導中,三星新聞中心將前往中國,深入探討AI模型的訓練和校正方式。