人類最終考驗？ AI 能否通過這場最終測試？

隨著大型語言模型（LLM）的能力快速提升，現有的基準測試正逐漸失去挑戰性，許多模型已能輕鬆達到 90% 的準確率，這使得衡量最先進 AI 系統的能力變得越來越困難。為了解決這一問題，「人類的最後考試」（Humanity’s Last Exam, HLE）應運而生——這是一個跨學科、多模態的高難度基準測試，旨在成為 AI 領域內最後一場封閉式的學術測試。

挑戰最前沿的 AI 系統

「人類的最後考試」由來自全球 50 多個國家、超過 500 所機構的近 1,000 名專家共同打造，其中包括教授、研究員和高級學位持有人。該測試涵蓋了超過 100 個學科的 3,000 道高難度題目，並且公開了一部分數據集，同時保留了一部分私有測試集，以防止模型過度擬合。

這些測試題目專注於封閉式的學術問題，從經典文學到生態學，涵蓋了廣泛且專業的知識。例如：

經典文學領域： 要求翻譯古羅馬墓碑上的帕爾米拉文。
生態學領域： 問及蜂鳥骨骼結構中的特定肌腱數量。

這些問題不僅挑戰 AI 的知識儲備，也考驗其推理能力和精確性。

為何需要這場「最後考試」？

目前的基準測試（如 MMLU）已被許多模型「解決」，難以反映最前沿系統的能力。相比之下，「人類的最後考試」設計更具挑戰性，現有的多數前沿模型在該測試中的表現仍然非常有限。以下是部分測試結果：

模型名稱	準確率 (%) ↑	校準誤差 (%) ↓
GPT-4o	3.3	92.5
Claude 3.5 Sonnet	4.3	88.9
DeepSeek-R1	9.4	81.8
o3-mini (medium)	10.5	92.0
o3-mini (high)	13.0	93.2

即使是最先進的模型（如 DeepSeek-R1 和 o3-mini），在該測試中的準確率也僅略高於 10%，這顯示出現代 AI 系統在處理高難度、封閉式學術問題時仍有大量改進空間。

未來的可能性與影響

雖然目前的 AI 模型在「人類的最後考試」中的表現仍處於起步階段，但歷史經驗表明，這樣的基準測試往往會快速被突破。以當前的發展速度來看，模型在 2025 年底前達到 50% 的準確率並非不可能。然而，需要注意的是，即便模型能在 HLE 中取得高分，也僅代表其在學術知識和邏輯推理上的進步，並不意味著它已經具備自主研究或創造性問題解決的能力。

HLE 的意義並不僅僅在於測試 AI 的技術能力，更在於為科學家、政策制定者提供一個統一的參考點，幫助他們評估 AI 的發展軌跡、潛在風險以及必要的治理措施。