Google Translate 近日宣布了其有史以來最大規模的語言擴展計劃,將新增 110 種語言支援。這一重大更新源於 Google 先進的人工智慧技術,特別是其大型語言模型 PaLM 2 的應用,為全球超過 6.14 億人口提供了更加便捷的翻譯服務。
Google Translate 更新關鍵要點:
- 新增語言覆蓋範圍廣泛:從使用者眾多的主流語言到瀕危的小眾語言皆有涉及。
- 非洲語言得到重點關注:約四分之一的新增語言來自非洲大陸。
- AI 技術突破:利用 PaLM 2 大型語言模型實現高效學習和翻譯。
- 多樣性和包容性:支援各種語言變體和拼寫標準。
技術細節:
Google Translate 團隊採用了先進的 AI 技術來實現這次大規模的語言擴展。其中,PaLM 2 大型語言模型扮演了關鍵角色。這一模型能夠高效學習和處理相互關聯的語言,例如與印地語相近的 Awadhi 和 Marwadi,以及法語克里奧爾語的變體如塞舌爾克里奧爾語和毛里求斯克里奧爾語。
此外,Google 還運用了零樣本機器翻譯(Zero-Shot Machine Translation)技術。這種技術使得機器學習模型能夠在沒有直接翻譯實例的情況下,學會將內容翻譯成新的目標語言。
新增語言亮點:
- 廣東話:長期以來最受歡迎的語言之一,因與普通話在書面上的重疊而增加了模型訓練的難度。
- 恩科文字(NKo):一種統一了多種西非曼丁語方言的標準化形式,擁有獨特的字母表。
- 塔馬齊格特語(Amazigh):使用拉丁字母和提非納格字母書寫的北非柏柏爾語。
- 托克皮辛語(Tok Pisin):巴布亞新幾內亞的主要通用語,是一種以英語為基礎的克里奧爾語。
語言多樣性:
Google Translate 團隊深知語言的多樣性和複雜性。在選擇語言變體時,他們優先考慮了每種語言最常用的變體。例如,對於擁有眾多方言的羅姆語,Google Translate 生成的文本最接近南部弗拉赫羅姆語,同時也融合了北部弗拉赫和巴爾幹羅姆語的元素。
未來發展:
Google 表示,隨著技術的進步和與專家語言學家及母語者的持續合作,他們將在未來支援更多的語言變體和拼寫規範。這與 Google 此前宣布的「1000 種語言計劃」相呼應,該計劃旨在構建支援全球 1000 種使用最廣泛語言的 AI 模型。
結語:
Google Translate 的這次重大更新不僅展示了 AI 技術在語言處理領域的巨大潛力,也體現了 Google 致力於打破語言壁壘。