Stability AI 這週公布了其最新產品 – Stable Video Diffusion,這是一個基於Stability AI現有的Stability Diffusion文字轉圖像開源模型研發的新模型,能將靜態圖像轉變為動態影像。Stable Video Diffusion目前正處於「研究預覽」階段,使用者在使用時必須遵循特定規定,包括只能將其用作教育、創新、設計或其他藝術用途的工具,並禁止用於再現真實人或事件。
Stable Video Diffusion提供兩種模型:SVD和SVD-XT。SVD能將靜態圖像轉換為14影格的576×1024影片,而SVD-XT則使用相同的架構,但將影格數提升到24。這兩種模型都可以產生每秒3到30影格(frames per second)的影片。
SVD和SVD-XT這兩款模型的訓練起始於數以百萬計的影片資料集,並進一步透過數十萬部影片進行「微調」訓練,這些都來自公開的資料集。難以判斷這些來源是否涉及版權問題,如果有,可能會為Stability及其Stable Video Diffusion的用戶帶來侵權或倫理上的困擾。
Stability AI同時也明確指出了Stable Video Diffusion的限制,如無法生成無動作或慢速平移的影片,無法以文字進行控制,無法渲染文字,以及生成人臉的質量不穩定等。
然而,Stability AI強調,這些模型具有高度的擴展性,並且可以輕易地應用於多種場景,例如生成物體的360度影片。
Stability AI表示,該公司正在計劃以SVD和SVD-XT為基礎,發展出多種模型和一種能夠透過Web輸入文字提示的「文字轉影片」工具。公司的最終目標可能是商業化。該公司指出,SVD在「廣告、教育、娛樂」等領域的應用非常適合。
隨著投資者壓力加大,Stability AI希望能儘早發展出穩定的利潤模式。儘管該公司在年終成功籌集了2500萬美元,但近期投資者的興趣似乎減少了,有傳言因為營收不佳,導致薪資發放延遲或薪資稅未繳,AWS甚至威脅要禁止Stability AI存取其GPU執行實例。