《Disney +》 迪士尼、Marvel、彼思、星球大戰…  PlayStation.Blog偕同一眾好友獻上季節祝賀   Supergiant 年度最佳遊戲獲獎作品《Hades》的起源   Cygames 發表以魔術師世界為舞台的家用主機動作遊戲新作「Project GAMM」!   PS5™《審判之眼:死神的遺言 Remastered》現已發售!由木村拓哉擔綱主演,備受世界讚譽的法庭劇巨作!   《NieR Replicant ver.1.22474487139…》實體版開放預購   特別版「Nintendo Switch Lite 帝牙盧卡/帕路奇亞」 將於2021年11月5日上市!   Arkane最喜愛的《Deathloop》武器裝備:用這些角色建構來打造你的完美寇特   《決勝時刻®:黑色行動冷戰》與《現代戰域™》第四季將於6月18日登場 

VALL-E 2 人工智能語音生成器己達人類水平?

商業

微軟最新開發的人工智能語音生成器 VALL-E 2 據報已達到「人類水平」,但現階段仍未公開。VALL-E 2是一款文本轉語音(TTS)生成器,僅需幾秒鐘的音頻樣本就能複製人類說話者的聲音。微軟研究人員在6月17日發表於預印本服務器arXiv的論文中表示,VALL-E 2能夠「以原始說話者的確切聲音生成準確、自然的語音,其效果堪比人類表現」。

該AI語音生成器之所以如此逼真,主要得益於兩項關鍵技術:「重複感知採樣」和「分組代碼建模」。重複感知採樣通過處理語言中的重複「標記」(如單詞或詞組)來改善AI的文本到語音轉換,避免解碼過程中出現無限循環的聲音或短語。分組代碼建模則通過減少模型處理的單個輸入序列長度來提高效率,加快VALL-E 2的語音生成速度。

研究人員使用LibriSpeech和VCTK語音庫的音頻樣本來評估VALL-E 2與人類錄音的匹配程度。他們還使用ELLA-V評估框架來衡量VALL-E 2處理更複雜語音生成任務的效果。

「我們在LibriSpeech和VCTK數據集上進行的實驗表明,VALL-E 2在語音穩健性、自然度和說話者相似性方面超越了以往的零樣本TTS系統。」研究人員寫道,「它是首個在這些基準測試中達到人類水平的同類系統。」

微軟博客文章中寫道:「VALL-E 2純粹是一個研究項目。目前,我們沒有計劃將VALL-E 2納入產品或向公眾擴大訪問權限。」(VALL-E 2 is purely a research project. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public.)

研究人員確實提出了AI語音技術未來可能的實際應用VALL-E 2可以用於合成保持說話者身份的語音,可應用於教育學習、娛樂、新聞報道、自創內容、無障礙功能、交互式語音應答系統、翻譯、聊天機器人等領域。

VALL-E 2的發展標誌著AI語音生成技術的重大進步,但也引發了對創意版權和內容真實性的新一輪討論。隨著這類技術的不斷發展,相關的法律和倫理框架也需要相應調整,以應對可能出現的挑戰。

來源參考:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

TechApple

隨機商業新聞

Gearbest