《Disney +》 迪士尼、Marvel、彼思、星球大戰…  西野秀明問題解答:開發PlayStation系統軟件更新   DeNA 公開可以將任意聲音轉換成角色聲音的聲音轉換 AI「VOICE AVATAR 七聲妮娜」   《Super Monkey Ball Banana Mania》:慶祝猴子魔力20週年   2021年 PlayStation 發布會將於下週五播出   曾獲日本遊戲設計大獎2020的《Baba Is You》登上智慧型手機平台!   「東京電玩展優惠」進駐PlayStation Store   《熱血硬派》系列35週年紀念新企劃啟動!   《垂死之光2 堅守人性》:看跑酷與創意戰鬥如何點燃精采動作 

VALL-E 2 人工智能語音生成器己達人類水平?

商業

微軟最新開發的人工智能語音生成器 VALL-E 2 據報已達到「人類水平」,但現階段仍未公開。VALL-E 2是一款文本轉語音(TTS)生成器,僅需幾秒鐘的音頻樣本就能複製人類說話者的聲音。微軟研究人員在6月17日發表於預印本服務器arXiv的論文中表示,VALL-E 2能夠「以原始說話者的確切聲音生成準確、自然的語音,其效果堪比人類表現」。

該AI語音生成器之所以如此逼真,主要得益於兩項關鍵技術:「重複感知採樣」和「分組代碼建模」。重複感知採樣通過處理語言中的重複「標記」(如單詞或詞組)來改善AI的文本到語音轉換,避免解碼過程中出現無限循環的聲音或短語。分組代碼建模則通過減少模型處理的單個輸入序列長度來提高效率,加快VALL-E 2的語音生成速度。

研究人員使用LibriSpeech和VCTK語音庫的音頻樣本來評估VALL-E 2與人類錄音的匹配程度。他們還使用ELLA-V評估框架來衡量VALL-E 2處理更複雜語音生成任務的效果。

「我們在LibriSpeech和VCTK數據集上進行的實驗表明,VALL-E 2在語音穩健性、自然度和說話者相似性方面超越了以往的零樣本TTS系統。」研究人員寫道,「它是首個在這些基準測試中達到人類水平的同類系統。」

微軟博客文章中寫道:「VALL-E 2純粹是一個研究項目。目前,我們沒有計劃將VALL-E 2納入產品或向公眾擴大訪問權限。」(VALL-E 2 is purely a research project. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public.)

研究人員確實提出了AI語音技術未來可能的實際應用VALL-E 2可以用於合成保持說話者身份的語音,可應用於教育學習、娛樂、新聞報道、自創內容、無障礙功能、交互式語音應答系統、翻譯、聊天機器人等領域。

VALL-E 2的發展標誌著AI語音生成技術的重大進步,但也引發了對創意版權和內容真實性的新一輪討論。隨著這類技術的不斷發展,相關的法律和倫理框架也需要相應調整,以應對可能出現的挑戰。

來源參考:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

TechApple

隨機商業新聞

Micorsoft