Stable Video Diffusion 登場， – TechNow 當代科技

Stability AI 這週公布了其最新產品 – Stable Video Diffusion，這是一個基於Stability AI現有的Stability Diffusion文字轉圖像開源模型研發的新模型，能將靜態圖像轉變為動態影像。Stable Video Diffusion目前正處於「研究預覽」階段，使用者在使用時必須遵循特定規定，包括只能將其用作教育、創新、設計或其他藝術用途的工具，並禁止用於再現真實人或事件。

Stable Video Diffusion提供兩種模型：SVD和SVD-XT。SVD能將靜態圖像轉換為14影格的576×1024影片，而SVD-XT則使用相同的架構，但將影格數提升到24。這兩種模型都可以產生每秒3到30影格（frames per second）的影片。

SVD和SVD-XT這兩款模型的訓練起始於數以百萬計的影片資料集，並進一步透過數十萬部影片進行「微調」訓練，這些都來自公開的資料集。難以判斷這些來源是否涉及版權問題，如果有，可能會為Stability及其Stable Video Diffusion的用戶帶來侵權或倫理上的困擾。

Stability AI同時也明確指出了Stable Video Diffusion的限制，如無法生成無動作或慢速平移的影片，無法以文字進行控制，無法渲染文字，以及生成人臉的質量不穩定等。

然而，Stability AI強調，這些模型具有高度的擴展性，並且可以輕易地應用於多種場景，例如生成物體的360度影片。

Stability AI表示，該公司正在計劃以SVD和SVD-XT為基礎，發展出多種模型和一種能夠透過Web輸入文字提示的「文字轉影片」工具。公司的最終目標可能是商業化。該公司指出，SVD在「廣告、教育、娛樂」等領域的應用非常適合。

隨著投資者壓力加大，Stability AI希望能儘早發展出穩定的利潤模式。儘管該公司在年終成功籌集了2500萬美元，但近期投資者的興趣似乎減少了，有傳言因為營收不佳，導致薪資發放延遲或薪資稅未繳，AWS甚至威脅要禁止Stability AI存取其GPU執行實例。