隨著大型語言模型(LLM)的能力快速提升,現有的基準測試正逐漸失去挑戰性,許多模型已能輕鬆達到 90% 的準確率,這使得衡量最先進 AI 系統的能力變得越來越困難。為了解決這一問題,「人類的最後考試」(Humanity’s Last Exam, HLE)應運而生——這是一個跨學科、多模態的高難度基準測試,旨在成為 AI 領域內最後一場封閉式的學術測試。
![人類最終考驗? AI 能否通過這場最終測試? 1](https://techapple.com/wp-content/uploads/2025/02/difficulty_comparison_new-1024x544.webp)
挑戰最前沿的 AI 系統
「人類的最後考試」由來自全球 50 多個國家、超過 500 所機構的近 1,000 名專家共同打造,其中包括教授、研究員和高級學位持有人。該測試涵蓋了超過 100 個學科的 3,000 道高難度題目,並且公開了一部分數據集,同時保留了一部分私有測試集,以防止模型過度擬合。
這些測試題目專注於封閉式的學術問題,從經典文學到生態學,涵蓋了廣泛且專業的知識。例如:
- 經典文學領域: 要求翻譯古羅馬墓碑上的帕爾米拉文。
- 生態學領域: 問及蜂鳥骨骼結構中的特定肌腱數量。
這些問題不僅挑戰 AI 的知識儲備,也考驗其推理能力和精確性。
為何需要這場「最後考試」?
目前的基準測試(如 MMLU)已被許多模型「解決」,難以反映最前沿系統的能力。相比之下,「人類的最後考試」設計更具挑戰性,現有的多數前沿模型在該測試中的表現仍然非常有限。以下是部分測試結果:
模型名稱 | 準確率 (%) ↑ | 校準誤差 (%) ↓ |
---|---|---|
GPT-4o | 3.3 | 92.5 |
Claude 3.5 Sonnet | 4.3 | 88.9 |
DeepSeek-R1 | 9.4 | 81.8 |
o3-mini (medium) | 10.5 | 92.0 |
o3-mini (high) | 13.0 | 93.2 |
即使是最先進的模型(如 DeepSeek-R1 和 o3-mini),在該測試中的準確率也僅略高於 10%,這顯示出現代 AI 系統在處理高難度、封閉式學術問題時仍有大量改進空間。
未來的可能性與影響
雖然目前的 AI 模型在「人類的最後考試」中的表現仍處於起步階段,但歷史經驗表明,這樣的基準測試往往會快速被突破。以當前的發展速度來看,模型在 2025 年底前達到 50% 的準確率並非不可能。然而,需要注意的是,即便模型能在 HLE 中取得高分,也僅代表其在學術知識和邏輯推理上的進步,並不意味著它已經具備自主研究或創造性問題解決的能力。
HLE 的意義並不僅僅在於測試 AI 的技術能力,更在於為科學家、政策制定者提供一個統一的參考點,幫助他們評估 AI 的發展軌跡、潛在風險以及必要的治理措施。
全球專家共同努力
HLE 的成功離不開全球專家的共同參與。這些專家來自世界各地頂尖機構,包括麻省理工學院(MIT)、牛津大學、斯坦福大學等。他們不僅設計了測試題目,還為數據集的質量把關。在這場測試中,AI 面臨的挑戰與人類在學術領域中的最高成就相匹配,這也為未來 AI 能否達到專家水準提供了一個清晰的衡量標尺。
下一步:AI 的未來考驗
HLE 被稱為「最後考試」,但它並不是 AI 評估的終點。隨著 AI 技術的進步,未來的測試將更側重於開放性問題、自主研究能力以及創造性思維的衡量。「人類的最後考試」只是評估 AI 發展的一個階段性里程碑,它為我們提供了觀察 AI 技術極限的窗口,並持續探索 AI 的潛力與挑戰。
參考來源:https://agi.safe.ai/
本文開版由AI生成。