Meta公司近日推出了一項突破性的生成式人工智能研究成果——Movie Gen,這項技術有望為影音創作者帶來全新的創作可能性。Movie Gen是一套多模態的媒體基礎模型,涵蓋了圖像、視頻和音頻等多個領域,為創作者提供了前所未有的內容生成和編輯能力。
Meta Movie Gen 四大核心功能
Movie Gen主要包含四項核心功能:視頻生成、個人化視頻生成、精確視頻編輯以及音頻生成。這些功能的結合使Movie Gen成為目前業界最先進、最具沉浸感的故事講述工具套件。
在視頻生成方面,Movie Gen採用了一個30B參數的轉換器模型,該模型同時針對文本到圖像和文本到視頻的任務進行了優化。它能夠生成長達16秒、每秒16幀的高質量高清視頻。模型能夠理解物體運動、主體與物體的互動以及攝像機運動,並能夠為各種概念學習合理的運動方式。
個人化視頻生成功能允許用戶輸入一張個人照片,結合文本提示來生成包含參考人物和豐富視覺細節的視頻。這項功能在保留人物身份和動作方面達到了業界領先水平。
精確視頻編輯功能結合了視頻生成和高級圖像編輯技術,可以執行局部編輯(如添加、刪除或替換元素)和全局更改(如背景或風格修改)。與傳統工具和其他生成式工具相比,Movie Gen能夠更精確地保留原始內容,只針對相關像素進行修改。
在音頻生成方面,Meta訓練了一個13B參數的音頻生成模型,可以根據視頻和可選的文本提示生成高質量、高保真的音頻,包括環境聲、音效和配樂,並且能夠與視頻內容同步。此外,該模型還引入了音頻擴展技術,可以為任意長度的視頻生成連貫的音頻。
Meta Movie Gen 技術創新與性能評估
為了實現這些基礎模型,Meta在架構、訓練目標、數據配方、評估協議和推理優化等多個方面進行了技術創新。通過人類評估比較,Movie Gen在各項功能上都優於業界競爭對手的模型。
然而,Meta也承認當前模型仍存在一些限制。例如,還有許多優化空間可以進一步減少推理時間,並通過進一步擴展來提高模型質量。
未來發展與應用前景
隨著模型不斷改進,Meta計劃與電影製作人和創作者密切合作,以整合他們反饋,確保所開發的工具能夠幫助人們以新的方式增強他們固有的創造力。Movie Gen潛在應用範圍廣泛,從社交媒體內容創作到個人化視頻問候等。例如,用戶可能能夠使用文本提示來創建和編輯”一天生活”視頻並在Reels上分享,或者為朋友製作定制的動畫生日祝福並通過WhatsApp發送。
負責任的AI發展
值得注意的是,Meta強調生成式AI並非旨在取代藝術家和動畫師的工作。相反,他們分享這項研究是因為相信這項技術有助於人們以新的方式表達自己,並為可能沒有其他機會的人提供機會。Meta希望在未來,每個人都能夠利用Movie Gen等技術將自己的藝術願景變為現實,創作高清視頻和音頻。
總的來說,Movie Gen有望為內容創作者帶來更多創新工具,推動影音創作進入一個新的AI賦能時代。然而,如何平衡技術創新與負責任使用,仍將是Meta和整個行業需要持續關注的重要議題。
參考來源:https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/