Meta Movie Gen：2024 年 AI影片生成大戰又一強手參戰

Meta公司近日推出了一項突破性的生成式人工智能研究成果——Movie Gen，這項技術有望為影音創作者帶來全新的創作可能性。Movie Gen是一套多模態的媒體基礎模型，涵蓋了圖像、視頻和音頻等多個領域，為創作者提供了前所未有的內容生成和編輯能力。

Meta Movie Gen 四大核心功能

Movie Gen主要包含四項核心功能：視頻生成、個人化視頻生成、精確視頻編輯以及音頻生成。這些功能的結合使Movie Gen成為目前業界最先進、最具沉浸感的故事講述工具套件。

在視頻生成方面，Movie Gen採用了一個30B參數的轉換器模型，該模型同時針對文本到圖像和文本到視頻的任務進行了優化。它能夠生成長達16秒、每秒16幀的高質量高清視頻。模型能夠理解物體運動、主體與物體的互動以及攝像機運動，並能夠為各種概念學習合理的運動方式。

個人化視頻生成功能允許用戶輸入一張個人照片，結合文本提示來生成包含參考人物和豐富視覺細節的視頻。這項功能在保留人物身份和動作方面達到了業界領先水平。

精確視頻編輯功能結合了視頻生成和高級圖像編輯技術，可以執行局部編輯（如添加、刪除或替換元素）和全局更改（如背景或風格修改）。與傳統工具和其他生成式工具相比，Movie Gen能夠更精確地保留原始內容，只針對相關像素進行修改。

在音頻生成方面，Meta訓練了一個13B參數的音頻生成模型，可以根據視頻和可選的文本提示生成高質量、高保真的音頻，包括環境聲、音效和配樂，並且能夠與視頻內容同步。此外，該模型還引入了音頻擴展技術，可以為任意長度的視頻生成連貫的音頻。

Meta Movie Gen 技術創新與性能評估

為了實現這些基礎模型，Meta在架構、訓練目標、數據配方、評估協議和推理優化等多個方面進行了技術創新。通過人類評估比較，Movie Gen在各項功能上都優於業界競爭對手的模型。

然而，Meta也承認當前模型仍存在一些限制。例如，還有許多優化空間可以進一步減少推理時間，並通過進一步擴展來提高模型質量。

未來發展與應用前景

隨著模型不斷改進，Meta計劃與電影製作人和創作者密切合作，以整合他們反饋，確保所開發的工具能夠幫助人們以新的方式增強他們固有的創造力。Movie Gen潛在應用範圍廣泛，從社交媒體內容創作到個人化視頻問候等。例如，用戶可能能夠使用文本提示來創建和編輯”一天生活”視頻並在Reels上分享，或者為朋友製作定制的動畫生日祝福並通過WhatsApp發送。