隨著三星持續引領卓越行動AI體驗的發展,三星新聞中心專訪世界各地的三星研究院,探討Galaxy AI如何協助更多用戶極致地發揮潛力。Galaxy AI目前支援16種語言,透過通話即時翻譯、翻譯助理、筆記智慧助理與瀏覽助理等終端翻譯功能,助力更多用戶拓展語言能力,即使在離線狀態下,也能暢所欲言。然而,AI語言開發究竟涉及哪些層面?本系列報導探討行動AI領域的各種挑戰,以及三星如何克服這些困難。三星新聞中心以印尼作為此探索之旅的首站,瞭解如何開始教導AI學習一門新語言。
三星印尼研發中心(SRIN)團隊指出,第一步是制定目標。SRIN AI團隊是近期將印尼語納入Galaxy AI支援行列的幕後功臣,其負責人Junaidillah Fadlil表示:「優秀的AI始於優質且相關的數據。不同的語種需要不同的處理方式,故我們深入研究當地語言的需求和獨特條件。本土語言的發展須仰賴洞察力與科學,因此,我們為Galaxy AI注入新語言時,會先規劃所需的資訊,並確保能以合法且合乎道德的方式獲得。」
通話即時翻譯等Galaxy AI應用會執行三個核心流程:自動語音辨識(ASR)、神經機器翻譯(NMT),以及文字轉語音(TTS),而每個過程皆需要一組獨特的資訊。
例如,ASR須廣泛錄製各種語境下的口說內容,並逐一與準確的文字轉錄配對。不同的背景噪音值,有助於說明不同的環境。SRIN AI團隊的ASR負責人Muchlisin Adi Saputra解釋:「僅在錄音中添加噪音是不夠的,除了從授權的第三方合作夥伴取得語言數據,我們亦須走進咖啡店或工作場所,在各處錄製自己的聲音。如此才能捕捉現實生活中的獨特聲音,例如人們的吆喝聲、或鍵盤的敲擊聲。」
而不斷變遷的語言本質,亦須納入考量。Saputra補充道:「我們須跟上時代的腳步,掌握最新的流行語和使用方式,而社群媒體是主要的蒐集管道!」
再者,NMT需要翻譯訓練數據。SRIN AI團隊的NMT負責人Muhamad Faisal談到:「翻譯印尼語極具挑戰性,其對上下文脈絡和隱義的廣泛應用,仰賴於社會和情境線索,因此我們需大量的翻譯文字供AI參考,以獲取新詞、外來詞、專有名詞、慣用語-任何有助於AI理解上下文、語法規則的資訊。」
接下來,TTS需要錄製一系列聲音和語氣,以及各個詞彙結構體在不同情境下的發聲。TTS負責人Harits Abdurrohman補充道:「有了良好的錄音,可說是成功完成一半的任務,並涵蓋AI模型所需的所有音素(語音單位)。配音員若能在早期階段圓滿達成任務,便能將重點轉移至改良AI模型,以清晰的發音說出特定的單字。」
團結力量大
規劃龐大的數據需要大量資源,因此SRIN與語言學專家密切合作。Fadlil回憶道:「欲克服這項挑戰,需要創造力、應變能力,以及印尼語和機器學習方面的專業知識。三星秉持的開放合作理念,在達成任務上發揮了重要作用,而我們的運作規模和AI發展歷程,亦功不可沒。」
透過與全球各地的其它三星研究中心合作,SRIN團隊得以快速採用最佳實踐作法,並克服建立資料目標的複雜性。此外,合作不僅有助於推動技術進步,亦有利於文化發展。當SRIN團隊加入印度班加羅爾的夥伴行列時,成員們觀察當地的齋戒習俗,建立更深層次的連結,並擴大其對不同文化的理解。
對該團隊而言,Galaxy AI的語言延伸專案,別具開創性意義。Fadlil總結:「我們對於在此領域取得的成就感到自豪,因為這是團隊的第一個AI專案,隨著我們持續地精進模型並提升輸出品質,團隊並不會就此畫下句點。此次延伸,不僅反映三星的開放價值觀,更透過語言尊重、融入文化認同。」
在下一輯的《學習曲線》專題報導中,三星新聞中心將前往三星約旦研發中心,專訪主導Galaxy AI阿拉伯語專案的團隊。請持續關注最新報導,瞭解為多種方言的語種建立模型與訓練的複雜性。