來自浙江大學與阿里巴巴集團的研究團隊推出開源專案OmniAvatar,這項創新技術能夠高效生成音頻驅動的虛擬化身影片,並具備自適應身體動畫功能。該專案目前在GitHub上已獲得381顆星,展現出AI影片生成領域的強大潛力。
突破性音頻驅動影片生成技術
OmniAvatar是一個高效的音頻驅動虛擬化身影片生成系統,能夠根據音頻輸入自動產生相應的人物動畫與唇語同步效果。該技術由浙江大學的Qijun Gan、Ruizi Yang、Jianke Zhu等研究者與阿里巴巴集團的Shaofei Xue、Steven Hoi共同開發。
這項技術的核心優勢在於其自適應身體動畫能力,能夠根據音頻內容智能調整虛擬化身的動作表現。系統支援透過文字提示控制角色行為,格式為「[提示詞]@@[圖片路徑]@@[音頻路徑]」,為用戶提供高度可控的生成體驗。
多規模模型選擇滿足不同需求
OmniAvatar提供兩種規模的模型選擇:14B參數的高性能版本與1.3B參數的輕量化版本。14B模型基於Wan2.1-T2V架構,能夠產生更高品質的影片效果,而1.3B模型則在保持良好效果的同時大幅降低硬體需求。
在技術實現上,系統採用LoRA(Low-Rank Adaptation)技術進行模型微調,並整合Wav2Vec音頻編碼器處理音頻輸入。這種設計既保證了生成品質,又提升了訓練與推理效率。
靈活的推理配置與效能優化
系統提供豐富的推理參數調整選項,包括提示詞引導係數、音頻引導係數、生成步數等關鍵參數。建議的提示詞與音頻配置範圍為4-6,用戶可透過提高音頻配置來獲得更一致的唇語同步效果。
在硬體需求方面,14B模型在單GPU A800環境下的完整運行需要36GB顯存,但透過FSDP(Fully Sharded Data Parallel)技術與參數持久化優化,可將顯存需求降至8GB。多GPU並行推理能夠顯著提升生成速度,4GPU配置下可達到4.8秒/迭代的處理速度。
TeaCache加速技術提升效率
為了平衡生成品質與推理速度,OmniAvatar整合了TeaCache加速技術。建議的閾值範圍為0.05-0.15,在保持影片品質的同時大幅提升生成效率。系統推薦的生成步數範圍為20-50步,更多步數能帶來更高品質,但會相應增加計算時間。
在影片分辨率方面,目前版本支援480p解析度的影片生成。系統在30,000詞元訓練基礎上,推理時使用更多詞元(如60,000或80,000)也能取得良好效果。
重疊幀技術增強時序連貫性
OmniAvatar採用重疊幀技術來提升生成影片的時序連貫性。overlap_frame參數可設定為1或13,其中13能產生更連貫的生成效果,但可能導致更嚴重的錯誤傳播。這種技術在長時間影片生成中特別重要,能夠維持角色動作的自然流暢性。
開源社群貢獻與未來發展
作為Apache 2.0授權的開源專案,OmniAvatar歡迎全球開發者的貢獻與改進。研究團隊積極鼓勵社群參與,並表示樂意為相關改進專案提供參考支援。
該專案致謝了Wan2.1、FantasyTalking和DiffSynth-Studio等開源專案,體現了開源社群協作共進的精神。目前專案已發布推理代碼與模型權重,並持續更新以支援更多功能。