JEPA,全名「聯合嵌入預測架構」(Joint Embedding Predictive Architecture),是一種新穎的 AI 方法,目的是讓機器像人類一樣,通過觀察和預測來學習世界如何運作。它屬於自監督學習,也就是說不需要人類幫忙標記資料,就能自己訓練。這讓它成本低又靈活多變。
JEPA 怎麼運作?
想像一下,你給 AI 看一張圖片的一部分,比如一棵樹,它會試著猜測接下來可能是什麼,比如天空或一隻鳥。JEPA 的做法是從能看到的部份,預測看不到部份的「表徵」(representation),重點在理解整體概念,而不是細微的像素細節。比如說,圖片版的 I-JEPA 用視覺轉換器(Vision Transformer)來處理和預測圖片,而影片版的 V-JEPA 則能從影片中學習物體的動作和互動。
為什麼重要?
JEPA 的效率很高,比一些其他方法需要的運算資源少,而且 Meta AI 把它開源了(免費分享程式碼),讓更多人可以研究和改良。它在現實世界有很大的應用潛力,例如機器人或自動駕駛汽車,因為這些都需要理解周圍環境。
AI 中的 JEPA 模型完整解析
背景與脈絡
JEPA 模型是 Yann LeCun 在 2022 年提出來的,他希望打造一個能自己學習世界模型和常識的 AI,靠的是自監督學習。這靈感來自人類和動物如何通過觀察環境來學習,不用依賴人工標記的資料。到 2025 年 4 月 7 日為止,AI 領域很關注大型語言模型(LLM)和生成式 AI,但這些技術有時會「胡說八道」(產生奇怪的錯誤)。JEPA 想解決這些問題,朝人工通用智慧(AGI)的目標邁進,目前研究還在持續發展中。
核心概念與變體
JEPA 的核心是預測高層次的抽象概念,而不是像素級的細節,這樣比較不容易出錯,也更省力。它在「表徵空間」中學習,從上下文預測缺少的資訊,注重語義(意思)而非表面。
- I-JEPA(圖片版 JEPA):專注於圖片,用視覺轉換器(ViT)從沒遮住的部分,預測被遮住部分的表徵。例如,它能從圖片中可見的背景,猜出隱藏物體的表徵。
- V-JEPA(影片版 JEPA):應用到影片,從原始影片中學習抽象表徵,預測物體互動,比如球撞到牆後的路徑。
- MC-JEPA:有些資料提到這是個變體,專注於動作和內容特徵,但細節不多。
這種非生成式(non-generative)的方法,和生成式模型(如 DALL-E 或 GPT)不同,後者會直接預測像素,處理細節時容易出問題,比如畫手的時候不自然。
技術細節與架構
以 I-JEPA 為例,它的架構有幾個關鍵部分:
- 上下文區塊(Context Block):用視覺轉換器處理可見的圖片部分,產生有意義的表徵。
- 目標區塊(Target Block):預測被遮住部分的表徵,權重用指數移動平均更新,避免表徵崩潰。
- 預測器(Predictor):一個較小的視覺轉換器,根據位置資訊預測目標區塊的表徵,用 L2 距離計算損失。
運作方式是隨機選取目標區塊(遮住的部分),用單一上下文區塊(沒遮住的部分)來預測。這不對稱的設計避免了類似 Siamese 網路常見的表徵崩潰問題。損失函數是預測表徵和目標表徵之間的平均 L2 距離,用梯度優化來學習參數。
效率與表現
JEPA 的效率很突出,比其他頂尖模型需要的運算資源少很多。例如:
- 在 ImageNet-1K 上訓練一個 6.32 億參數的 I-JEPA 模型,用 16 個 A100 GPU 不到 72 小時,只用了其他方法的十分之一運算資源。
- 在 ImageNet-1K 的線性探測和半監督評估中,I-JEPA 表現比遮罩自編碼器(MAE)好,擅長分類、物體計數和深度預測。
- 用 ViT-H/14 在 ImageNet 上預訓練不到 1200 GPU 小時,比 iBOT 的 ViTS/16 快 2.5 倍,比 MAE 的 ViT-H/14 效率高 10 倍。
這種效率來自於在表徵空間預測,忽略低層次細節和背景,收斂速度比其他方法快 5 倍,雖然單次迭代慢了 7%。
應用與未來展望
JEPA 不需要資料增強就能學習語義表徵,很適合需要理解環境的應用:
- 機器人:幫機器人預測動態環境中的結果,提升適應性。
- 自動駕駛汽車:增強對場景的理解,預測交通情況。
- 通用 AI 研究:為實現 AGI 提供基礎,建構世界模型和常識,彌補語言模型的功能語言能力不足。
初步測試顯示 I-JEPA 在電腦視覺任務表現優異,Meta AI 把它開源(I-JEPA GitHub),提供訓練程式碼和預訓練模型,鼓勵更多研究。它將在電腦視覺與模式識別大會(CVPR)上展示,顯示它在研究界的影響力。
比較分析
和其他自監督學習方法比,JEPA 避開了基於不變性預訓練(如 MoCo、SimCLR、Dino)的偏見,這些方法容易因增強而崩潰表徵。它也不同於遮罩自編碼器(MAE),後者是生成式的,從嵌入解碼回像素空間,效率較低。以下是比較表:
面向 | JEPA (I-JEPA) | 遮罩自編碼器 (MAE) | 不變性方法 (如 Dino) |
---|---|---|---|
方法 | 非生成式,表徵空間預測 | 生成式,像素空間解碼 | 不變性,表徵崩潰風險 |
效率 | 高,10 倍少運算,收斂快 | 中等,運算需求較高 | 中等,依增強而定 |
語義焦點 | 強,學習高層次抽象 | 弱,注重像素細節 | 中等,依任務而定 |
資料增強 | 不需要 | 不需要 | 需要 |
任務表現 | 分類、計數、深度預測出色 | 不錯,但語義任務較弱 | 不錯,但有增強偏見 |
挑戰與爭議
JEPA 雖然有潛力,但也有挑戰,例如確保表徵不崩潰(靠不對稱架構解決)。有些研究者質疑表徵空間預測是否能完全捕捉語義,還有它能否擴展到更複雜任務。Yann LeCun 認為 JEPA 是 AGI 關鍵的看法也引發爭議,有人覺得語言模型和生成式 AI 更值得優先關注。這些討論顯示 AI 研究在 2025 年 4 月 7 日仍在演進。
結論
總之,JEPA 是自監督學習的一大進步,提供高效、語義導向的方式,讓 AI 學習世界模型。它的變體如 I-JEPA 和 V-JEPA 在電腦視覺任務表現出色,應用潛力涵蓋機器人和自動駕駛。隨著研究深入,JEPA 在 AGI 發展中的角色備受矚目,開源和社群參與也推動了它的進展。
參考來源:
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture