語言讓我們能向世界展現自己的文化及身分,但由於現時仍缺乏能夠支援過百種語言的高質素翻譯工具,以致有數十億人無法使用他們慣用的語言或母語在網絡上存取數碼內容,或全面地參與對話及加入社群,而這種情況對使用多種非洲和亞洲語言的數億人來說尤其明顯。
為協助人們建立更好的聯繫,並於未來進入元宇宙,Meta AI 研究人員展開了「不遺下任何語言」(No Language Left Behind,簡稱 NLLB)項目,致力為全世界大部分的語言開發高質素的機械翻譯功能。今天,我們宣布 NLLB 的一項重大突破:我們已建造出名為 NLLB-200 的單一 AI 模型,能翻譯 200 種不同語言並取得最佳的成果。目前現有的最佳翻譯工具中,仍有許多語言(例如坎巴文和寮國文)沒有完善支援或甚至無法支援。常用的翻譯工具目前只能支援少於 25 種非洲語言,且多數質素不佳。相比之下,NLLB-200 支援 55 種非洲語言,並能夠提供高質素的翻譯成果。整體而言,這個單一模型可為全球數十億人所用的語言提供高質素的翻譯內容。NLLB-200 的雙語替換評測分數(BLEU score)在 FLORES-101 基準的所有 10,000 個方向中,較現有的先進翻譯工具分數平均提升了 44%。在部分非洲和印度語言中,提升幅度相較最新的翻譯系統更提升了 70%。
現在已開放 NLLB-200 模型的原始碼並發布一系列研究工具,讓其他研究人員能夠將此作為基礎並擴大支援至更多語言,以及開發更具包容性的技術。此外,Meta AI 亦向非牟利組織提供多達 $200,000 美元的補助金,以推廣 NLLB-200 的實際應用。
NLLB 的研究進展將支援 Facebook 動態消息、Instagram 和我們其他平台上每日所提供超過 250 億則翻譯內容。想像一下,當您瀏覽最喜愛的 Facebook 群組時,看到一則以伊博文或盧干達文撰寫的帖文,您只須點擊一個按鈕,便能透過自己的語言了解帖文的內容。此外,支援更多語言的超精準翻譯還能協助辨別有害內容和錯誤資訊、維護廉正選舉,以及遏制網絡性剝削和人口販賣的情況發生。現時維基百科編輯人員所用的翻譯系統亦採用源自 NLLB 研究的建模技術和學習成果。
翻譯為人們的日常生活帶來重要的影響,因此亦是 AI 技術中最令人值得期待的範疇之一。NLLB 不僅能讓人們更容易存取網絡上的內容,還能讓使用不同語言的人透過簡易的方式提供及分享資訊。未來,我們還有更多的工作需要完成,而近期以及這項進展帶領我們向實現 Meta 的使命邁向了一大步,為我們注滿能量面向未來。
您可以在此探索NLLB-200 的範例,了解此模型如何翻譯來自世界各地的故事,並在此閱讀研究論文。
為超過十億人提供翻譯工具
我們與主辦維基百科及管理其他免費知識項目的非牟利組織維基媒體基金會(Wikimedia Foundation)攜手合作,致力改善維基百科的翻譯系統。維基百科有超過 300 種語言版本,但多數語言版本所提供的文章數量遠少於英文版本所提供的超過 6 百萬篇文章。對於主要在歐洲和北美洲以外地區所使用的語言來說,這差距更顯著。例如,林加拉文是剛果民主共和國、剛果共和國、中非共和國和南蘇丹的 4,500 萬人所用的語言,但以此語言撰寫的維基百科文章只有約 3,260 篇。相比之下,在瑞典和芬蘭有 1 千萬人使用的瑞典文,卻有超過 250 萬篇文章。
維基百科的編輯現在正透過維基媒體基金會(Wikimedia Foundation)的內容翻譯工具使用 NLLB-200 模型背後的技術,將文章翻譯成超過 20 種資源匱乏的語言(這些語言沒有可用於訓練 AI 系統的大量數據庫),其中包括先前在該平台上沒有任何機械翻譯工具提供支援的 10 種語言。
為數百種語言建立單一模型的挑戰
就像所有 AI 模型一樣,機械翻譯系統需要數據來進行訓練。對文字翻譯系統而言,這通常包括數百萬個在多種語言之間仔細配對的句子,但例如在英文與富拉文之間,並沒有大量的平行結構句子。現有的翻譯模型嘗試透過從網絡挖掘數據來克服這個問題,但因為每種語言的文字來源不同,因此質素通常不佳。此外,這些數據經常充斥著錯誤或不一致的拼法,並且遺漏重音符號和其他變音符號。
另一個重大挑戰是,必須在不影響效能或翻譯質素的情況下對單一模型進行優化,以在數百種語言之間能夠順利運作。一直以來,最佳翻譯質素都是來自針對每個語言方向建立單獨的模型,但只要新增更多語言,效能和翻譯質素便會下降,因此難以擴大規模。
許多翻譯模型亦會產生難被發現的錯誤。這些系統是由用於產生文字的神經網絡所建立,因此可能會自然產生幻覺(即使事實並非如此,卻自信地陳述某件事為真實)、錯誤陳述和不安全的內容等錯誤。一般來說,資源匱乏的語言擁有較少基準和數據庫,導致測試和完善模型的工作更加困難。
結構、數據來源、基準分析等不同方面的創新
近年來,我們在克服上述挑戰時獲得了穩定的進展。2020 年,我們發布了 100 種語言的 M2M-100 翻譯模型,這個模型利用全新的方法來取得訓練數據,在無損效能的情況下以新的結構擴大模型規模,並採用新的方式來評估和改善翻譯成果。為了擴大至另外 100 種語言,我們在這三個領域均取得進一步的進展。
擴展訓練資源
為收集更多語言的高準確度平行結構文字,我們完善了LASER — 在自然語言處理(Natural Language Processing,簡稱NLP)中用於進行零樣本轉換的工具包。新版的 LASER3 並未採用 LSTM,而是採用以遮罩語言建模(Masked Language Modeling)目標進行自我監督式訓練的轉換(Transformer)模型。我們採用師生訓練程序及建立語言組別專用的編碼器,藉此擴大 LASER3 的語言涵蓋範圍並產生大量的句子配對,包括資源匱乏的語言,以進一步提升效能。我們將對其他研究人員開放 LASER3 多語言內嵌方法的原始碼,另外亦提供不同語言配對的數十億個平行結構句子,而這些句子都已經過本文所述各種技術的挖掘和清除程序。
由於我們在尋找更多語言的訓練範例時會更廣泛地網羅來源,因此能夠維持高水平的範例質素是至關重要。我們徹底翻新了數據清除管道以擴展至200 種語言,同時新增重要的篩選步驟,包括先使用我們的 LID-200 模型來篩選數據,並從互聯網規模的語料庫中精準地移除雜訊。我們為 200 種語言開發了完整的負面內容清單,並利用這些清單來評估和篩選出潛在的幻覺負面內容。這些步驟能夠確保我們的數據庫變得更整潔及更少負面內容,並含有正確識別的語言。這對提升翻譯質素和減少稱為幻覺負面內容的風險極為重要,有助防止系統在翻譯過程中誤將負面內容帶入。
擴大模型規模,同時維持高效能
多語言翻譯系統提供兩大優勢。這類系統能夠讓近似的語言在訓練期間共用數據,例如阿薩姆文和孟加拉文都使用孟加拉文作為書寫文字。這能協助資源匱乏的語言透過與相似且擁有大量資源的語言一起進行訓練,大幅提升翻譯質素。此外,研究人員在使用單一多語言模型進行修正、擴大規模和實驗時,會比使用數百或數千個不同雙語言模型更加容易。
不過,要將模型從 100 種語言擴展至 200 種語言,仍然存在許多重大挑戰。隨著訓練數據中資源匱乏的語言配對越來越多,多語言系統在我們進行較長期的模型訓練時開始過度配對。我們透過三方面的創新技術解決這些問題:正規化與課程學習、自我監督學習以及多樣化的反向翻譯。
首先,我們開發具有共享且專用數據容量的專家混合(mixture-of-experts)網絡,以此將數據不多、資源匱乏的語言自動轉送至共用的數據容量,而只要與設計良好的正規化系統結合,便能避免過度配對。同時,我們也採用兩個步驟的課程學習的方法,我們會先在數個時段訓練擁有大量數據的語言,之後再引入資源匱乏的語言配對,這樣便能再次減少過度配對的問題。接著,由於資源匱乏的語言平行結構雙語料數據量較少,我們同時針對資源匱乏的語言和相似且擁有大量資源的語言,進行單語言數據的自我監督學習,以提升整體模型的效能。
最後,我們分析如何透過最佳方式產生反向翻譯數據,發現將雙語言統計機械翻譯模型與多語言神經機械翻譯模型所產生的反向翻譯數據混合,能夠提升資源匱乏語言的效能,這歸功於產生的合成數據增加了多樣性。為了訓練含有 54B 參數的 NLLB-200 模型,我們使用了新建造的 Research SuperCluster (RSC),這是世界最快的 AI 超級電腦之一。
適用於 200 種語言的評估和緩解工具
為評估和改善 NLLB-200,我們建立了 FLORES-200,一個獨特的多對多評估數據庫,讓研究人員可以評估 40,000 個不同語言方向的效能。我們將開放這個新數據集的原始碼,藉此協助其他研究人員迅速測試及改善他們的翻譯模型。FLORES-200 可用於評估各種應用的翻譯系統,包括在使用資源匱乏語言的國家或地區內的健康小冊子、電影、書籍和網上內容。
擴大至 200 種語言必須解決產生負面內容的風險,這在多向翻譯系統內進行管理更顯困難。我們對所有支援的語言建立了負面內容清單,以便偵測並篩選出褻瀆詞語和其他可能具冒犯性的內容,藉此解決這個問題。我們會發布所有 200 種語言的負面內容評估清單和基準,為其他研究人員提供可以降低模型中風險的工具。
而為了確保我們以負責任的方式擴展計畫,我們與包括語言學家、社會學家和倫理學家的跨學術團隊合作,深入瞭解我們研究的每種語言。
此圖像顯示針對 FLORES-101 在英語雙向翻譯至 100 種語言的平均 BLEU 分數。左邊為兩個已發布的最新模型:M2M 和 Delta LM,支援 100 種語言。右邊模型支援 200 種語言:使用 3.3B 參數的基準線 Transformer 模型、使用自我監督學習(SSL)的基準線模型、使用反向翻譯(BT)的基準線模型,以及同時利用自我監督學習和反向翻譯,具有大型混合專家模型的 NLLB-200。
擴展翻譯範圍及提升包容性
高質素的翻譯工具可以帶動革新。今天,僅有少數的語言主導網絡,包括英文、中文、西班牙文和阿拉伯文。這些被廣泛使用語言的母語人士可能無法瞭解,能以自己的母語閱讀,意義有多麽重大。我們相信 NLLB 有助於保留語言,因為它的設計為共用性質,而不是透過在情感或內容上經常發生錯誤的語言媒介。
這個項目亦有助推動翻譯以外其他 NLP 工作的進展,包括建立能以爪哇文和烏茲別克文等語言順利運作的助理,或是建立能將波里活電影加上準確的斯瓦西里文或奧羅莫文字幕的系統。隨著元宇宙開始逐漸成形,建立能夠以數百甚至數千種語言順利運作的技術能力,將有助大家在虛擬世界中獲取全新的沉浸式體驗。
幾年前,高質素的機械翻譯只能在少數語言中運作。有了 NLLB-200,我們更接近擁有使人們能夠與任何人進行溝通的系統。隨著我們繼續突破機械翻譯的界限,我們對現在已創造的新機會,以及未來發展的重大意義感到萬分期待。
這項目由 Meta AI 的跨學術團隊進行,成員包括:Bapi Akula、Pierre Andrews、Necip Fazil Ayan、Loic Barrault、Shruti Bhosale、Marta Ruiz Costa-jussa、James Cross、Onur Çelebi、Sergey Edunov、Maha Elbayad、Angela Fan、Cynthia Gao、Gabriel Mejia Gonzalez、Vedanuj Goswami、Francisco Guzmán、Prangthip Hansanti、Kennet Heafield、Kevin Heffernan、John Hoffman、Semarley Jarrett、Elahe Kalbassi、Philipp Koehn、Janice Lam、Daniel Licht、Jean Maillard、Alexandre Mourachko、Christophe Ropers、Kaushik Ram Sadagopan、Safiyyah Saleem、Holger Schwenk、Shannon Spruit、Anna Sun、Chau Tran、Skyler Wang、Guillaume Wenzek、Jeff Wang 和 Al Youngblood。
這篇文章 Meta 單一人工智能模型支援 200 種語言:機械翻譯的突破 最早出現於 TechApple.com。