《Disney +》 迪士尼、Marvel、彼思、星球大戰…  《緋紅結繫》現已推出,遊戲攻略助你完全發揮靈能潛力   超現實敘事冒險遊戲《Where the Heart Leads》於7月13日在PS4、PS5發行   《Tchia》:創造一款由「新喀里多尼亞」所啟發的遊戲   大逃殺手遊「FINAL FANTASY VII THE FIRST SOLDIER」事前登錄人數突破100萬!   快速補充能量!日本產能量飲品Kiiva發表首款款果凍飲料「KiiVA SPEED CHARGE」!   Housemarque如何打造《Returnal》的沉浸式DualSense 無線控制器 效果   『走出戶外 動物森友會 amiibo+』amiibo卡【三麗鷗明星聯名】復刻確定!   30名玩家規模的大逃殺遊戲《Hunter’s Arena》將於8月3日登陸PS4與PS5 

Hao AI Lab 使用經典遊戲評估 AI 模型表現, 倉庫番 好難玩?

商業

Hao AI Lab,位於加州大學聖地亞哥分校,最近推出了一項創新研究,利用經典視頻遊戲評估大型語言模型(LLM)的能力,特別是透過他們的 GameArena 項目。這一方法旨在提供一個動態且引人入勝的環境,測試 AI 模型在即時、互動設定中的推理和解決問題的能力,與傳統的靜態數據集評估形成對比。該研究於 2025 年 2 月 28 日在 X 上發布,詳見 Hao AI Lab 的 X 貼文

GameArena 的設計與目標

GameArena 是一個動態基準測試,專為評估 LLM 的推理能力而設計,透過與人類互動的遊戲玩法進行評估。與依賴靜態數據集的現有基準不同,GameArena 避免了數據污染和飽和問題,並提供更細緻的推理能力評估。根據 arXiv 上發布的論文「GameArena: Evaluating LLM Reasoning through Live Computer Games」(arXiv 論文),該項目包括三款遊戲,設計用於測試特定的推理技能,如演繹和歸納推理,同時保持參與者的娛樂性和參與度。實驗收集了超過 2000 場遊戲數據,用於比較不同 LLM,包括 GPT-4o、Gemini-1.5-pro 和 Claude-3.7。

使用的遊戲與推理測試

GameArena 使用的遊戲包括:

  • 《超級瑪利歐兄弟》(1985 年任天堂):這款經典平台遊戲需要精確的時機、空間感知和戰略規劃,以穿越關卡並避開障礙。研究顯示,它特別適合測試即時決策和動態適應能力。
  • Sokoban(1989 年修改版):一個益智遊戲,玩家需將箱子推到指定位置,測試長遠規劃和問題解決能力,常常涉及多步預測。
  • 2048:一個滑動瓷磚遊戲,玩家需結合瓷磚以達到最高分數,測試戰略思考和預先規劃。
  • Tetris:一個益智遊戲,玩家需排列下落的方塊,測試空間推理和快速決策能力。

這些遊戲的選擇反映了不同推理面向的挑戰,從即時反應到長遠策略,每款遊戲都為評估 LLM 的能力提供了獨特視角。最近他們在X上發佈了一些最新比試結果。

測試的 AI 模型與表現

實驗測試了幾個領先的 LLM:

  • Claude-3.7(Anthropic)
  • Claude-3.5(Anthropic)
  • Gemini-1.5-pro(Google)
  • GPT-4o(OpenAI)

根據 X 貼文,在《超級瑪利歐兄弟》遊戲中,Claude-3.7 使用簡單的啟發式方法表現最佳,顯示其在即時決策方面的強大能力。啟發式方法指的是一些高效但不一定最佳的策略,表明 Claude-3.7 能以相對簡單的方式應對遊戲挑戰。Claude-3.5 也表現良好,但規劃複雜動作的能力較弱,可能是因為其在長遠規劃方面的限制。Gemini-1.5-pro 和 GPT-4o 的表現相對較差,顯示這些模型在處理動態、即時環境時可能存在潛在改進空間。

儘管2025年的頂尖推理模型已能與美國數學邀請賽(AIME)金牌得主匹敵,但這些AI在面對1980年代經典益智遊戲「倉庫番」(Sokoban)時卻顯得捉襟見肘。Hao AI Lab最近在X平台上發表的最新研究揭示,即便是最先進的AI模型也難以應對這款看似簡單的推箱子遊戲,這凸顯了AI在空間推理和長期規劃能力上的局限性。

倉庫番是一款於1982年推出的單人益智遊戲,玩家需將箱子推入指定儲存位置。遊戲看似簡單,卻因其NP-hard(非確定性多項式時間硬問題)的本質而極具挑戰性:隨著問題規模擴大,其解題複雜度呈指數增長。這使得倉庫番成為測試AI空間感知和策略規劃能力的理想基準。

Hao AI Lab的研究顯示,在測試中,xAI的o3-mini(中型版)表現最佳,成功通過第4級,但最終在僅涉及兩個箱子的情況下陷入僵局。Anthropic的Claude-3.7-thinking僅完成第2級,Deepseek-R1通過第1級,而Google的Gemini-2.0-flash-thinking則完全無法解決任何關卡。研究指出,即使是具備視覺能力的模型,如Claude-3.7,也在直接從圖像中做出決策時遇到困難,暴露了空間推理的關鍵短板。

關鍵引用

TechApple

隨機商業新聞

Micorsoft