《Disney +》 迪士尼、Marvel、彼思、星球大戰…  hololive 官方網店hololive production OFFICIAL SHOP正式開業   《Resident Evil Village》Maiden體驗版今日登陸PS5   尊爵不凡!重現《勇者鬥惡龍 達伊的大冒險》大魔王巴恩的西洋棋軍隊「哈德拉禁衛騎團 銀製西洋棋組」發售確定!   賦予《Kena: Bridge of Spirits》的主角生命   延伸遊玩優惠優惠進駐PlayStation Store   「KOF XV」新角色預告!「安琪兒」公開!   《貓咪大戰爭》Q周年紀念活動第1彈11月15日開始!   最新生存模擬遊戲《Surviving the Aftermath》最新宣傳片公開! 

OmniAvatar:開源音頻驅動虛擬化身技術突破元

商業

來自浙江大學與阿里巴巴集團的研究團隊推出開源專案OmniAvatar,這項創新技術能夠高效生成音頻驅動的虛擬化身影片,並具備自適應身體動畫功能。該專案目前在GitHub上已獲得381顆星,展現出AI影片生成領域的強大潛力。

突破性音頻驅動影片生成技術

OmniAvatar是一個高效的音頻驅動虛擬化身影片生成系統,能夠根據音頻輸入自動產生相應的人物動畫與唇語同步效果。該技術由浙江大學的Qijun Gan、Ruizi Yang、Jianke Zhu等研究者與阿里巴巴集團的Shaofei Xue、Steven Hoi共同開發。

這項技術的核心優勢在於其自適應身體動畫能力,能夠根據音頻內容智能調整虛擬化身的動作表現。系統支援透過文字提示控制角色行為,格式為「[提示詞]@@[圖片路徑]@@[音頻路徑]」,為用戶提供高度可控的生成體驗。

多規模模型選擇滿足不同需求

OmniAvatar提供兩種規模的模型選擇:14B參數的高性能版本與1.3B參數的輕量化版本。14B模型基於Wan2.1-T2V架構,能夠產生更高品質的影片效果,而1.3B模型則在保持良好效果的同時大幅降低硬體需求。

在技術實現上,系統採用LoRA(Low-Rank Adaptation)技術進行模型微調,並整合Wav2Vec音頻編碼器處理音頻輸入。這種設計既保證了生成品質,又提升了訓練與推理效率。

靈活的推理配置與效能優化

系統提供豐富的推理參數調整選項,包括提示詞引導係數、音頻引導係數、生成步數等關鍵參數。建議的提示詞與音頻配置範圍為4-6,用戶可透過提高音頻配置來獲得更一致的唇語同步效果。

在硬體需求方面,14B模型在單GPU A800環境下的完整運行需要36GB顯存,但透過FSDP(Fully Sharded Data Parallel)技術與參數持久化優化,可將顯存需求降至8GB。多GPU並行推理能夠顯著提升生成速度,4GPU配置下可達到4.8秒/迭代的處理速度。

TeaCache加速技術提升效率

為了平衡生成品質與推理速度,OmniAvatar整合了TeaCache加速技術。建議的閾值範圍為0.05-0.15,在保持影片品質的同時大幅提升生成效率。系統推薦的生成步數範圍為20-50步,更多步數能帶來更高品質,但會相應增加計算時間。

在影片分辨率方面,目前版本支援480p解析度的影片生成。系統在30,000詞元訓練基礎上,推理時使用更多詞元(如60,000或80,000)也能取得良好效果。

重疊幀技術增強時序連貫性

OmniAvatar採用重疊幀技術來提升生成影片的時序連貫性。overlap_frame參數可設定為1或13,其中13能產生更連貫的生成效果,但可能導致更嚴重的錯誤傳播。這種技術在長時間影片生成中特別重要,能夠維持角色動作的自然流暢性。

開源社群貢獻與未來發展

作為Apache 2.0授權的開源專案,OmniAvatar歡迎全球開發者的貢獻與改進。研究團隊積極鼓勵社群參與,並表示樂意為相關改進專案提供參考支援。

該專案致謝了Wan2.1、FantasyTalking和DiffSynth-Studio等開源專案,體現了開源社群協作共進的精神。目前專案已發布推理代碼與模型權重,並持續更新以支援更多功能。

來源: https://github.com/Omni-Avatar/OmniAvatar

TechApple

隨機商業新聞

Disney+