三星正如火如荼開拓旗艦行動AI體驗。三星新聞中心專訪世界各地的三星研究院,深入瞭解Galaxy AI如何協助用戶發揮極致潛能。Galaxy AI目前支援16種語言,憑藉通話即時翻譯、智慧翻譯、筆記智慧助理和瀏覽智慧助理等終端內建翻譯功能,使更多用戶即使在離線狀態也能拓展語言能力。然而AI語言究竟如何開發而成?團隊稍早走訪波蘭,探索歐洲團隊如何透過合作達成共同目標。本次三星新聞中心將前進日本,探討開發人員持續因應新情境與使用案例的研究過程。
日本三星研發中心(SRJ)成立之初聚焦於家電與顯示器等硬體技術發展,隨全球AI創新需求呈現爆發式增長,位於橫濱的SRJ也在去年底設立軟體研發實驗室,推出能在通話中即時自動翻譯對話內容的Galaxy AI通話即時翻譯功能。
SRJ AI團隊負責人Takayuki Akasako表示:「通話即時翻譯對於旅遊情境特別實用,例如參加今年巴黎奧運的遊客將可受惠。我們目前正為親臨巴黎奧運觀賽並在城市觀光的用戶開發一款語音辨識程式,並透過訓練此程式學習2024巴黎奧運的賽事與比賽場館位置。」
在語音辨識中理解上下文
對於已在使用Galaxy AI翻譯功能的用戶來說,此類型的應用可能非常有幫助。但對實際在開發這些功能的研究人員而言,在國外旅遊時能夠流暢溝通其實並非易事。
開發團隊首先注意到,相較於其他語言,日文中含有更多的同音異義詞。例如,「筷子」(Hashi,箸)和「橋」(Hashi,橋)可透過不同語調輕鬆判別;但諸如「觀光」(Kankō,観光)和「慣例」(Kankō,慣行)、「公共」(Kōkyō,公共)和「繁榮」(Kōkyō,好況),就必須仰賴上下文來判斷詞義。
Akasako指出:「當地點和人物的名稱、專有名詞、方言及數字等上下文模糊不清時,詞彙將變得難以判斷。為了提升語音辨識的準確度,搜集大量資料勢在必行。」
他繼續補充:「我們不斷尋找能即時針對重大活動與重要瞬間微調AI模型的方法。因為許多地點名稱和活動都會產生新的組合用詞,在使用Galaxy AI時維持上下文的清晰度是非常重要的關鍵。」
蒐集有效資料時面臨的挑戰
雖然判斷所需的資料類型很重要,但蒐集資料的任務本身即是艱鉅挑戰。
過去,SRJ團隊利用人工紀錄的數據訓練通話即時翻譯的語音辨識引擎,卻無法產出充分的資料量。
Samsung Gauss為三星的大型語言模型(LLM),其透過腳本建構不同情境相關的字詞或短語組成句子。藉由Samsung Gauss蒐集到的資料不僅涵蓋人工紀錄,亦會利用語音合成文字轉語音(TTS)資料生成數據,最後再由人工進行最終品質檢測。透過此方法,團隊得以大幅改善資料蒐集效率。
Akasako表示:「每當找到問題並解決時,語音辨識的精準度就能夠顯著提升。無論用戶身處何地,我們的目標都是串起人與人之間的連結,而Galaxy AI提供的工具將確實為溝通過程創造更多樂趣與效率。」