《Disney +》 迪士尼、Marvel、彼思、星球大戰…  PS5獲指定為NBA 2K League的官方主機   Team ASOBI熱情獻上:教你畫Astro!   迪士尼扭曲仙境 x 他媽哥池!附有寮章的「扭曲哥池」決定發售!開始接受預約!   【情報解禁】KOF XV新角色「KING」介紹短片公開!   《戰地風雲2042》於10月22日登陸PS4和PS5:首輪詳情   新《Stranger of Paradise》試玩版現已上線   「年末優惠」進駐PlayStation Store   P&D龍族拼圖 2020東京奧運活動 依日本隊獎牌數送魔法石! 

GPT-4.5 剖析:OpenAI 最新語言模型的技術突破

商業

繼強勁的 Claude 3.7 Sonnet 登場 後,OpenAI 正式發布了其最新語言模型 GPT-4.5,內部代號 Orion。這款模型被定位為迄今為止規模最大的語言模型,專注於提升無監督學習、多模態處理與情感理解能力。根據 OpenAI 官方公告,GPT-4.5 旨在提供更可靠、更自然的交互體驗,並在減少幻覺與增強人類協作方面取得突破。本文將深入探討 GPT-4.5 的技術細節、性能基準、應用場景以及對 AI 發展的潛在影響。

最重要是,香港用戶在POE上也可以嘗鮮,Preview版已經可玩,不過要訂閱用戶,而且單個Message耗點超過2,000。


GPT-4.5 的技術核心

GPT-4.5 的設計融合了多項技術創新,使其在眾多應用場景中脫穎而出。以下是其主要特點與改進:

  1. 無監督學習的擴展
    • GPT-4.5 通過增強無監督學習能力,從未標記數據中提取更廣泛的知識。這使其能夠處理更複雜的主題,並適應多樣化的用戶需求。
    • 與前代模型相比,這項技術提升了模型的“世界理解”能力,使其在生成上下文相關的回應時更具深度。
  2. 情感理解與交互提升
    • 該模型的情感商數(EQ)大幅提高,能更準確地識別用戶意圖並生成帶有同理心的回應。例如,在面對“如何應對壓力”的提問時,GPT-4.5 可提供人性化的建議。
    • 數據顯示,其在情感理解任務中的勝率對比 GPT-4o 達到 56.8% 至 63.2%。
  3. 幻覺減少
    • 幻覺(生成不準確或虛構信息)一直是語言模型的挑戰。GPT-4.5 的 SimpleQA 幻覺率降至 37.1%,低於 GPT-4o(44%)及其他競爭模型。
    • 這一進展提升了其在需要高準確性場景(如學術研究或專業寫作)中的可靠性。
  4. 多模態與編碼能力
    • GPT-4.5 在多模態任務(如圖像與文字結合的 MMMLU,得分 85.1%)與編碼任務(如 SWE-Bench Verified,得分 38.0%)中表現出色。
    • 這使其成為開發者與技術專業人士的強大工具,特別是在生成程式碼或處理複雜數據時。

性能基準測試:GPT-4.5 與競爭對手比較

OpenAI 提供了 GPT-4.5 的多項基準測試結果,與前代模型 GPT-4o 及推理專用模型 o3-mini 進行對比。以下是關鍵數據:

任務GPT-4.5GPT-4oo3-mini
GPQA(科學)71.4%53.6%79.7%
AIME ‘24(數學)36.7%9.3%87.3%
MMMLU(多模態)85.1%81.5%81.1%
MMMU(多模態)74.4%69.1%未提供
SWE-Lancer Diamond(編碼)32.6%23.3%10.8%
SWE-Bench Verified(編碼)38.0%30.7%61.0%
  • 分析:GPT-4.5 在多模態與編碼任務中表現優異,特別是在 MMMLU(85.1%)與 SWE-Lancer Diamond(32.6%)中超越 GPT-4o。然而,在推理密集型任務(如 AIME ‘24 的數學測試,僅 36.7%)中,o3-mini(87.3%)明顯占優。
  • 定位差異:GPT-4.5 並未採用 o1 或 o3-mini 的“思考前回答”策略,而是專注於通用性與快速響應,適合多功能應用場景。

可用性與應用場景

當前訪問管道

  • ChatGPT 集成:GPT-4.5 目前僅對 ChatGPT Pro 用戶開放,費用為每月 200 美元。功能包括文件上傳與搜索,但不支援語音模式或視頻處理。OpenAI 計劃下週擴展至 Plus/Team 用戶,隨後推廣至 Enterprise/Edu 層級。
  • API 功能:開發者可通過 Chat Completions API、Assistants API 與 Batch API 訪問,支援功能調用、結構化輸出與視覺輸入(圖像)。其成本高於 GPT-4o,具體定價仍在調整中。

潛在應用

  • 內容生成:從技術文章到創意寫作,GPT-4.5 的自然語言生成能力可大幅提升效率。
  • 編程支持:其在編碼基準中的表現使其成為開發者的理想助手,例如生成程式碼片段或調試複雜項目。
  • 教育與研究:減少幻覺與強大的知識庫使其可用於學術協作與知識整理。

安全與倫理考量

OpenAI 強調了 GPT-4.5 的安全設計,採用監督微調(SFT)與人類反饋強化學習(RLHF)技術。根據其 Preparedness Framework,該模型經過嚴格測試,以確保輸出符合倫理與安全標準。這一舉措回應了業界對 AI 可靠性與潛在濫用的關注。


結論與未來展望

GPT-4.5 的發布展示了 OpenAI 在語言模型領域的持續創新。其在無監督學習、多模態處理與情感理解上的突破,使其成為通用 AI 應用的強大工具。雖然在推理任務中不如 o3-mini,但其協作性與可靠性為專業人士與開發者開闢了新可能性。隨著 API 功能的擴展與潛在的 GPT-5 計劃,GPT-4.5 可能只是 OpenAI 更大藍圖的起點。

參考來源

OpenAI 官方公告

TechApple

隨機商業新聞

NordVPN