《Disney +》 迪士尼、Marvel、彼思、星球大戰…  搶先看《Apex 英雄》賽季 9的 3V3模式「競技場」與英雄「瓦爾基里」等新要素!   SIE與RTS共同收購Evo 並發表將於2021年8月舉辦線上大賽   在《Chicory: A Colorful Tale》,世界就是你的畫布——今春登陸PS5和PS4   日本最大規模線下VALORANT活動!OSAKA VALORANT FES大阪現場報告!   遊戲與日常使用一機搞定!支援藍牙的電競耳麥 ASUS 華碩「ROG Strix Go BT」!   英雄聯盟第154位新英雄「殞落王者 維爾戈」實裝!   OlliOlliWorld:新的炙岩生物群落現已揭曉,已確認PS5採用120fps   PlayStation.Blog偕同一眾好友獻上季節祝賀 

VALL-E 2 人工智能語音生成器己達人類水平?

商業

微軟最新開發的人工智能語音生成器 VALL-E 2 據報已達到「人類水平」,但現階段仍未公開。VALL-E 2是一款文本轉語音(TTS)生成器,僅需幾秒鐘的音頻樣本就能複製人類說話者的聲音。微軟研究人員在6月17日發表於預印本服務器arXiv的論文中表示,VALL-E 2能夠「以原始說話者的確切聲音生成準確、自然的語音,其效果堪比人類表現」。

該AI語音生成器之所以如此逼真,主要得益於兩項關鍵技術:「重複感知採樣」和「分組代碼建模」。重複感知採樣通過處理語言中的重複「標記」(如單詞或詞組)來改善AI的文本到語音轉換,避免解碼過程中出現無限循環的聲音或短語。分組代碼建模則通過減少模型處理的單個輸入序列長度來提高效率,加快VALL-E 2的語音生成速度。

研究人員使用LibriSpeech和VCTK語音庫的音頻樣本來評估VALL-E 2與人類錄音的匹配程度。他們還使用ELLA-V評估框架來衡量VALL-E 2處理更複雜語音生成任務的效果。

「我們在LibriSpeech和VCTK數據集上進行的實驗表明,VALL-E 2在語音穩健性、自然度和說話者相似性方面超越了以往的零樣本TTS系統。」研究人員寫道,「它是首個在這些基準測試中達到人類水平的同類系統。」

微軟博客文章中寫道:「VALL-E 2純粹是一個研究項目。目前,我們沒有計劃將VALL-E 2納入產品或向公眾擴大訪問權限。」(VALL-E 2 is purely a research project. Currently, we have no plans to incorporate VALL-E 2 into a product or expand access to the public.)

研究人員確實提出了AI語音技術未來可能的實際應用VALL-E 2可以用於合成保持說話者身份的語音,可應用於教育學習、娛樂、新聞報道、自創內容、無障礙功能、交互式語音應答系統、翻譯、聊天機器人等領域。

VALL-E 2的發展標誌著AI語音生成技術的重大進步,但也引發了對創意版權和內容真實性的新一輪討論。隨著這類技術的不斷發展,相關的法律和倫理框架也需要相應調整,以應對可能出現的挑戰。

來源參考:https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e-2/

TechApple

隨機商業新聞

Addidas