GameNGen 是首個完全由神經模型驅動的遊戲引擎,能夠實現高品質的即時互動。該技術能夠在單個 TPU 上以每秒超過20幀的速度模擬經典遊戲《DOOM》,其下一幀預測的峰值信噪比(PSNR)達到29.4,與有損JPEG壓縮相當。人類評估者在辨別遊戲短片與模擬片段時的準確率僅略高於隨機猜測,顯示出該模型在生成高質量畫面方面的潛力。
實時錄製的《DOOM》遊玩過程,該遊戲由 GameNGen 神經模型模擬。
訓練過程與架構
GameNGen 的訓練過程分為兩個主要階段:
- 數據收集:首先,通過訓練一個自動強化學習(RL)代理來玩遊戲,並持續記錄其行動和觀察結果,這些數據成為後續生成模型的訓練資料。
- 生成模型訓練:使用小型擴散模型(Stable Diffusion v1.4),並根據過去的行動和觀察進行條件化訓練。此設計使得模型能夠在推斷過程中校正之前幀的資訊,從而保持長時間模擬的視覺穩定性。
性能評估
在多次測試中,GameNGen 在生成畫面時的質量與原始遊戲相當。對於短時間的模擬,人類評估者的辨別準確率僅略高於隨機猜測,這表明該技術在視覺質量上達到了相當高的水平。
應用潛力
GameNGen 的技術不僅限於遊戲開發,還可以擴展到虛擬現實(VR)和增強現實(AR)領域,隨著市場對沉浸式體驗需求的增加,這種即時生成技術為開發者提供了更靈活的創作工具,降低了開發成本並提高了內容創作效率。
結論
GameNGen 的推出標誌著遊戲技術的一次重大進步,特別是在即時生成和模擬方面,這技術展示了神經模型在互動遊戲中的應用潛力,未來有望成為遊戲開發新模式,重塑整個遊戲產業生態系統。