Hao AI Lab 使用經典遊戲評估 AI 模型表現，倉庫番好難玩？

Hao AI Lab，位於加州大學聖地亞哥分校，最近推出了一項創新研究，利用經典視頻遊戲評估大型語言模型（LLM）的能力，特別是透過他們的 GameArena 項目。這一方法旨在提供一個動態且引人入勝的環境，測試 AI 模型在即時、互動設定中的推理和解決問題的能力，與傳統的靜態數據集評估形成對比。該研究於 2025 年 2 月 28 日在 X 上發布，詳見 Hao AI Lab 的 X 貼文。

GameArena 的設計與目標

GameArena 是一個動態基準測試，專為評估 LLM 的推理能力而設計，透過與人類互動的遊戲玩法進行評估。與依賴靜態數據集的現有基準不同，GameArena 避免了數據污染和飽和問題，並提供更細緻的推理能力評估。根據 arXiv 上發布的論文「GameArena: Evaluating LLM Reasoning through Live Computer Games」(arXiv 論文)，該項目包括三款遊戲，設計用於測試特定的推理技能，如演繹和歸納推理，同時保持參與者的娛樂性和參與度。實驗收集了超過 2000 場遊戲數據，用於比較不同 LLM，包括 GPT-4o、Gemini-1.5-pro 和 Claude-3.7。

使用的遊戲與推理測試

Claude-3.7 was tested on Pokémon Red, but what about more real-time games like Super Mario ?

We threw AI gaming agents into LIVE Super Mario games and found Claude-3.7 outperformed other models with simple heuristics.

Claude-3.5 is also strong, but less capable of… pic.twitter.com/bqZVblwqX3
— Hao AI Lab (@haoailab) February 28, 2025

GameArena 使用的遊戲包括：

《超級瑪利歐兄弟》（1985 年任天堂）：這款經典平台遊戲需要精確的時機、空間感知和戰略規劃，以穿越關卡並避開障礙。研究顯示，它特別適合測試即時決策和動態適應能力。
Sokoban（1989 年修改版）：一個益智遊戲，玩家需將箱子推到指定位置，測試長遠規劃和問題解決能力，常常涉及多步預測。
2048：一個滑動瓷磚遊戲，玩家需結合瓷磚以達到最高分數，測試戰略思考和預先規劃。
Tetris：一個益智遊戲，玩家需排列下落的方塊，測試空間推理和快速決策能力。

這些遊戲的選擇反映了不同推理面向的挑戰，從即時反應到長遠策略，每款遊戲都為評估 LLM 的能力提供了獨特視角。最近他們在X上發佈了一些最新比試結果。

測試的 AI 模型與表現

實驗測試了幾個領先的 LLM：

Claude-3.7（Anthropic）
Claude-3.5（Anthropic）
Gemini-1.5-pro（Google）
GPT-4o（OpenAI）

根據 X 貼文，在《超級瑪利歐兄弟》遊戲中，Claude-3.7 使用簡單的啟發式方法表現最佳，顯示其在即時決策方面的強大能力。啟發式方法指的是一些高效但不一定最佳的策略，表明 Claude-3.7 能以相對簡單的方式應對遊戲挑戰。Claude-3.5 也表現良好，但規劃複雜動作的能力較弱，可能是因為其在長遠規劃方面的限制。Gemini-1.5-pro 和 GPT-4o 的表現相對較差，顯示這些模型在處理動態、即時環境時可能存在潛在改進空間。

You might have heard top reasoning models now match AIME gold medalists in 2025 , but watch them crumble in box-pushing Sokoban (倉庫番) from the 80s!

Again, we put top reasoning models into the game, o3-mini (medium) took the crown, reaching level 4 before tangled with… pic.twitter.com/ajbcAtMKtQ
— Hao AI Lab (@haoailab) March 6, 2025

儘管2025年的頂尖推理模型已能與美國數學邀請賽（AIME）金牌得主匹敵，但這些AI在面對1980年代經典益智遊戲「倉庫番」（Sokoban）時卻顯得捉襟見肘。Hao AI Lab最近在X平台上發表的最新研究揭示，即便是最先進的AI模型也難以應對這款看似簡單的推箱子遊戲，這凸顯了AI在空間推理和長期規劃能力上的局限性。

倉庫番是一款於1982年推出的單人益智遊戲，玩家需將箱子推入指定儲存位置。遊戲看似簡單，卻因其NP-hard（非確定性多項式時間硬問題）的本質而極具挑戰性：隨著問題規模擴大，其解題複雜度呈指數增長。這使得倉庫番成為測試AI空間感知和策略規劃能力的理想基準。

Hao AI Lab的研究顯示，在測試中，xAI的o3-mini（中型版）表現最佳，成功通過第4級，但最終在僅涉及兩個箱子的情況下陷入僵局。Anthropic的Claude-3.7-thinking僅完成第2級，Deepseek-R1通過第1級，而Google的Gemini-2.0-flash-thinking則完全無法解決任何關卡。研究指出，即使是具備視覺能力的模型，如Claude-3.7，也在直接從圖像中做出決策時遇到困難，暴露了空間推理的關鍵短板。

GameArena 的設計與目標

使用的遊戲與推理測試

測試的 AI 模型與表現

關鍵引用

隨機商業新聞