Hao AI Lab,位於加州大學聖地亞哥分校,最近推出了一項創新研究,利用經典視頻遊戲評估大型語言模型(LLM)的能力,特別是透過他們的 GameArena 項目。這一方法旨在提供一個動態且引人入勝的環境,測試 AI 模型在即時、互動設定中的推理和解決問題的能力,與傳統的靜態數據集評估形成對比。該研究於 2025 年 2 月 28 日在 X 上發布,詳見 Hao AI Lab 的 X 貼文。
GameArena 的設計與目標
GameArena 是一個動態基準測試,專為評估 LLM 的推理能力而設計,透過與人類互動的遊戲玩法進行評估。與依賴靜態數據集的現有基準不同,GameArena 避免了數據污染和飽和問題,並提供更細緻的推理能力評估。根據 arXiv 上發布的論文「GameArena: Evaluating LLM Reasoning through Live Computer Games」(arXiv 論文),該項目包括三款遊戲,設計用於測試特定的推理技能,如演繹和歸納推理,同時保持參與者的娛樂性和參與度。實驗收集了超過 2000 場遊戲數據,用於比較不同 LLM,包括 GPT-4o、Gemini-1.5-pro 和 Claude-3.7。
使用的遊戲與推理測試
Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario
— Hao AI Lab (@haoailab) February 28, 2025?
We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics.
Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3
GameArena 使用的遊戲包括:
- 《超級瑪利歐兄弟》(1985 年任天堂):這款經典平台遊戲需要精確的時機、空間感知和戰略規劃,以穿越關卡並避開障礙。研究顯示,它特別適合測試即時決策和動態適應能力。
- Sokoban(1989 年修改版):一個益智遊戲,玩家需將箱子推到指定位置,測試長遠規劃和問題解決能力,常常涉及多步預測。
- 2048:一個滑動瓷磚遊戲,玩家需結合瓷磚以達到最高分數,測試戰略思考和預先規劃。
- Tetris:一個益智遊戲,玩家需排列下落的方塊,測試空間推理和快速決策能力。
這些遊戲的選擇反映了不同推理面向的挑戰,從即時反應到長遠策略,每款遊戲都為評估 LLM 的能力提供了獨特視角。最近他們在X上發佈了一些最新比試結果。
測試的 AI 模型與表現
實驗測試了幾個領先的 LLM:
- Claude-3.7(Anthropic)
- Claude-3.5(Anthropic)
- Gemini-1.5-pro(Google)
- GPT-4o(OpenAI)
根據 X 貼文,在《超級瑪利歐兄弟》遊戲中,Claude-3.7 使用簡單的啟發式方法表現最佳,顯示其在即時決策方面的強大能力。啟發式方法指的是一些高效但不一定最佳的策略,表明 Claude-3.7 能以相對簡單的方式應對遊戲挑戰。Claude-3.5 也表現良好,但規劃複雜動作的能力較弱,可能是因為其在長遠規劃方面的限制。Gemini-1.5-pro 和 GPT-4o 的表現相對較差,顯示這些模型在處理動態、即時環境時可能存在潛在改進空間。
You might have heard top reasoning models now match AIME gold medalists in 2025
— Hao AI Lab (@haoailab) March 6, 2025, but watch them crumble in box-pushing Sokoban (倉庫番) from the 80s!
Again, we put top reasoning models into the game, o3-mini (medium) took the crown, reaching level 4 before tangled with… pic.twitter.com/ajbcAtMKtQ
儘管2025年的頂尖推理模型已能與美國數學邀請賽(AIME)金牌得主匹敵,但這些AI在面對1980年代經典益智遊戲「倉庫番」(Sokoban)時卻顯得捉襟見肘。Hao AI Lab最近在X平台上發表的最新研究揭示,即便是最先進的AI模型也難以應對這款看似簡單的推箱子遊戲,這凸顯了AI在空間推理和長期規劃能力上的局限性。
倉庫番是一款於1982年推出的單人益智遊戲,玩家需將箱子推入指定儲存位置。遊戲看似簡單,卻因其NP-hard(非確定性多項式時間硬問題)的本質而極具挑戰性:隨著問題規模擴大,其解題複雜度呈指數增長。這使得倉庫番成為測試AI空間感知和策略規劃能力的理想基準。
Hao AI Lab的研究顯示,在測試中,xAI的o3-mini(中型版)表現最佳,成功通過第4級,但最終在僅涉及兩個箱子的情況下陷入僵局。Anthropic的Claude-3.7-thinking僅完成第2級,Deepseek-R1通過第1級,而Google的Gemini-2.0-flash-thinking則完全無法解決任何關卡。研究指出,即使是具備視覺能力的模型,如Claude-3.7,也在直接從圖像中做出決策時遇到困難,暴露了空間推理的關鍵短板。