VALL-E 2 人工智能語音生成器己達人類水平？

微軟最新開發的人工智能語音生成器 VALL-E 2 據報已達到「人類水平」，但現階段仍未公開。VALL-E 2是一款文本轉語音(TTS)生成器，僅需幾秒鐘的音頻樣本就能複製人類說話者的聲音。微軟研究人員在6月17日發表於預印本服務器arXiv的論文中表示，VALL-E 2能夠「以原始說話者的確切聲音生成準確、自然的語音，其效果堪比人類表現」。

該AI語音生成器之所以如此逼真，主要得益於兩項關鍵技術:「重複感知採樣」和「分組代碼建模」。重複感知採樣通過處理語言中的重複「標記」(如單詞或詞組)來改善AI的文本到語音轉換，避免解碼過程中出現無限循環的聲音或短語。分組代碼建模則通過減少模型處理的單個輸入序列長度來提高效率，加快VALL-E 2的語音生成速度。

研究人員使用LibriSpeech和VCTK語音庫的音頻樣本來評估VALL-E 2與人類錄音的匹配程度。他們還使用ELLA-V評估框架來衡量VALL-E 2處理更複雜語音生成任務的效果。

「我們在LibriSpeech和VCTK數據集上進行的實驗表明，VALL-E 2在語音穩健性、自然度和說話者相似性方面超越了以往的零樣本TTS系統。」研究人員寫道，「它是首個在這些基準測試中達到人類水平的同類系統。」

微軟博客文章中寫道：「VALL-E 2純粹是一個研究項目。目前，我們沒有計劃將VALL-E 2納入產品或向公眾擴大訪問權限。」(VALL-E 2 is purely a research project. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public.)

研究人員確實提出了AI語音技術未來可能的實際應用VALL-E 2可以用於合成保持說話者身份的語音，可應用於教育學習、娛樂、新聞報道、自創內容、無障礙功能、交互式語音應答系統、翻譯、聊天機器人等領域。

VALL-E 2的發展標誌著AI語音生成技術的重大進步，但也引發了對創意版權和內容真實性的新一輪討論。隨著這類技術的不斷發展，相關的法律和倫理框架也需要相應調整，以應對可能出現的挑戰。

來源參考：https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/