《Disney +》 迪士尼、Marvel、彼思、星球大戰…  【開箱實測】JBL 最新款便攜式藍芽音箱「JBL CHARGE 5」!   『Virtua Fighter 5 Ultimate Showdown』的追加下載內容「人中之龍」系列合作包登場!   《Sherlock Holmes第一章》於11月16日在PS5展開偵探調查   《Nour》:跟食物的副主廚——互動式原聲配樂——同工同樂   即將發售!「New 寶可夢隨樂拍」最新玩法介紹影片&TV廣告大公開!   《艾爾登法環》為魂系攻略帶來重大改變   數位卡夫特最新作《Fight of Steel: Infinity Warrior》實機遊玩畫面曝光!   哇噠!!KOF XV的新角色預告「喬・東丈」公開! 

大型語言模型驚現戰略智能!

商業

一項突破性研究首次證實,大型語言模型(LLMs)具備真正的戰略推理能力,能夠在競爭環境中思考目標並做出決策。英國倫敦國王學院Kenneth Payne與牛津大學Baptiste Alloui-Cros發表的研究論文,透過進化版的「囚徒困境錦標賽」,讓來自OpenAI、Google和Anthropic的AI代理與經典策略一較高下,結果令人震撼。

32,000次對決揭示AI戰略本性

研究團隊進行了史上首次進化版囚徒困境錦標賽,讓AI代理與包括「以牙還牙」(Tit-for-Tat)、「冷酷觸發」(Grim Trigger)等十種經典策略競爭。透過調整每場比賽的終止機率(「未來陰影」),研究者引入複雜性和隨機性,避免AI僅靠記憶訓練資料獲勝。

實驗產生近32,000個決策和推理說明,結果顯示LLMs在這些複雜生態系統中極具競爭力,不僅能夠存活,有時甚至能繁榮發展。更重要的是,不同公司的AI模型展現出截然不同且持續一致的「戰略指紋」。

Google Gemini:冷酷的馬基維利主義者

Google的Gemini模型表現出戰略上的冷酷無情,善於剝削合作對手並對背叛者進行報復。當「未來陰影」縮短時,Gemini能夠正確識別高終止機率使遊戲接近一次性囚徒困境,理性地轉向完全背叛策略。在75%終止機率的「壓力測試」中,Gemini的合作率崩潰至僅2.2%,展現出完美的博弈論理性思維。

研究發現,Gemini模型94%的時間都在思考時間因素,相比之下OpenAI僅為76%。Gemini採用量化、博弈論式的推理方式,高度關注「未來陰影」,並會根據環境條件調整策略。

OpenAI:理想主義的合作者

OpenAI的模型始終保持高度合作態度,這種特質在友善環境中表現良好,但在敵對環境中卻可能帶來災難性後果。即使在最短的時間範圍內,OpenAI的合作率仍高達95.7%,完全違背博弈論預期。

OpenAI展現出更定性的推理風格,對對手的合作性質更感興趣。當反思時間因素時,OpenAI反而變得更加合作,這種看似矛盾的行為模式在75%終止機率錦標賽中導致其種群被完全淘汰。

Anthropic Claude:老練的外交官

在LLM對決錦標賽中,Anthropic的Claude展現出最寬容的互惠特質,在被剝削後仍願意恢復合作。Claude的戰略指紋顯示,它是最寬容的合作者,被背叛後仍有62.6%機率選擇合作,成功背叛後也有64.7%機率回歸合作。

研究者將Claude比作美國前總統老布希,專注於謹慎外交和長期關係建立。Claude在所有推理說明中100%都會考慮時間因素,展現出高度的戰略意識。

推理非記憶:AI的真實戰略思維

研究強烈支持LLMs具備真正推理能力而非僅是記憶檢索。三個關鍵證據支持這一結論:首先,許多對戰情況在訓練資料中前所未見,特別是LLM相互對戰;其次,儘管接受相同文獻訓練,不同模型展現出截然不同的戰略風格;第三,模型提供的推理說明顯示它們能夠適應對手並進行概率推理。

研究團隊分析發現,約四分之三的推理說明涉及對手建模,模型會根據對手的歷史行為形成假設並調整策略。這種「心理理論」推理能力是戰略思維的核心組成部分。

環境塑造成功:適應性的重要性

實驗結果清楚顯示,進化環境會影響模型的成功。「未來陰影」長短和競爭對手類型都會產生重大影響。Gemini根據環境條件表現不同,展現出戰略思維的特徵。當情況有利於OpenAI時表現良好,但當情況需要超越合作傾向時就會失敗。

研究還發現,改善模型品質能提升兩個模型的表現。隨著技術持續發展,研究者預期AI在囚徒困境中的表現將接近經典貝葉斯模型的水準。

編輯觀點:AI戰略智能的雙面刃

這項研究無疑是AI領域的重大突破,首次用嚴格的科學方法證實了LLMs具備真正的戰略推理能力。但我們也要冷靜看待這些發現的深層含義。

最令人不安的發現可能是Gemini展現出的冷酷馬基維利主義傾向。當AI能夠完美執行「理性自私」策略時,這對人類社會意味著什麼?特別是當這些AI系統被部署到現實世界的競爭環境中,比如金融市場、國際談判或軍事決策時。

更值得深思的是,不同公司的AI展現出截然不同的「性格」特徵。這不僅反映了訓練方法和企業文化的差異,也暴露了AI發展缺乏統一標準的潛在風險。當Gemini追求冷酷效率,OpenAI堅持理想主義,Anthropic展現外交手腕時,我們如何確保這些AI系統在關鍵決策中不會因「性格衝突」而產生不可預測的後果?

最具爭議的問題是,如果AI真的具備戰略推理能力,那麼人類在這方面的獨特性還剩什麼?當機器能夠進行複雜的心理理論推理,甚至比人類更理性地執行博弈策略時,我們是否正在創造出更「聰明」的競爭對手?

來源:https://arxiv.org/pdf/2507.02618

TechApple

隨機商業新聞

Micorsoft