《Disney +》 迪士尼、Marvel、彼思、星球大戰…  Pulse 3D 無線耳機組午夜黑款10月29日登場   《Death Stranding Director’s Cut》將於2021年9月24日登陸 PS5   《MLB The Show 21》呈獻教練與Fernando Tatis Jr.影片,教你如何給對手好看   令人驚異的360Hz刷新率!MSI旗下新品牌的「Oculux NXG253R」電競螢幕即將在日本開賣!   除了「死亡循環」以外還釋出了許多豐富情報!「State of Play」發表內容彙整!   食記!用現在熱門話題中的「電競香菇」進行料理&試吃!不只風味十足肉還很厚實!   遊戲與聲音的完美組合! 華碩推出支援PS5的耳機麥克風和耳機!   推出《Sol Cresta》:PlatinumGames 時隔 36 年製作太空射擊續集遊戲 

人類最終考驗? AI 能否通過這場最終測試?

商業

隨著大型語言模型(LLM)的能力快速提升,現有的基準測試正逐漸失去挑戰性,許多模型已能輕鬆達到 90% 的準確率,這使得衡量最先進 AI 系統的能力變得越來越困難。為了解決這一問題,「人類的最後考試」(Humanity’s Last Exam, HLE)應運而生——這是一個跨學科、多模態的高難度基準測試,旨在成為 AI 領域內最後一場封閉式的學術測試。


挑戰最前沿的 AI 系統

「人類的最後考試」由來自全球 50 多個國家、超過 500 所機構的近 1,000 名專家共同打造,其中包括教授、研究員和高級學位持有人。該測試涵蓋了超過 100 個學科的 3,000 道高難度題目,並且公開了一部分數據集,同時保留了一部分私有測試集,以防止模型過度擬合。

這些測試題目專注於封閉式的學術問題,從經典文學到生態學,涵蓋了廣泛且專業的知識。例如:

  • 經典文學領域: 要求翻譯古羅馬墓碑上的帕爾米拉文。
  • 生態學領域: 問及蜂鳥骨骼結構中的特定肌腱數量。

這些問題不僅挑戰 AI 的知識儲備,也考驗其推理能力和精確性。


為何需要這場「最後考試」?

目前的基準測試(如 MMLU)已被許多模型「解決」,難以反映最前沿系統的能力。相比之下,「人類的最後考試」設計更具挑戰性,現有的多數前沿模型在該測試中的表現仍然非常有限。以下是部分測試結果:

模型名稱準確率 (%) ↑校準誤差 (%) ↓
GPT-4o3.392.5
Claude 3.5 Sonnet4.388.9
DeepSeek-R19.481.8
o3-mini (medium)10.592.0
o3-mini (high)13.093.2

即使是最先進的模型(如 DeepSeek-R1 和 o3-mini),在該測試中的準確率也僅略高於 10%,這顯示出現代 AI 系統在處理高難度、封閉式學術問題時仍有大量改進空間。


未來的可能性與影響

雖然目前的 AI 模型在「人類的最後考試」中的表現仍處於起步階段,但歷史經驗表明,這樣的基準測試往往會快速被突破。以當前的發展速度來看,模型在 2025 年底前達到 50% 的準確率並非不可能。然而,需要注意的是,即便模型能在 HLE 中取得高分,也僅代表其在學術知識和邏輯推理上的進步,並不意味著它已經具備自主研究或創造性問題解決的能力。

HLE 的意義並不僅僅在於測試 AI 的技術能力,更在於為科學家、政策制定者提供一個統一的參考點,幫助他們評估 AI 的發展軌跡、潛在風險以及必要的治理措施。


全球專家共同努力

HLE 的成功離不開全球專家的共同參與。這些專家來自世界各地頂尖機構,包括麻省理工學院(MIT)、牛津大學、斯坦福大學等。他們不僅設計了測試題目,還為數據集的質量把關。在這場測試中,AI 面臨的挑戰與人類在學術領域中的最高成就相匹配,這也為未來 AI 能否達到專家水準提供了一個清晰的衡量標尺。


下一步:AI 的未來考驗

HLE 被稱為「最後考試」,但它並不是 AI 評估的終點。隨著 AI 技術的進步,未來的測試將更側重於開放性問題、自主研究能力以及創造性思維的衡量。「人類的最後考試」只是評估 AI 發展的一個階段性里程碑,它為我們提供了觀察 AI 技術極限的窗口,並持續探索 AI 的潛力與挑戰。

參考來源:https://agi.safe.ai/

本文開版由AI生成。

TechApple

隨機商業新聞

Disney Plus