繼強勁的 Claude 3.7 Sonnet 登場 後,OpenAI 正式發布了其最新語言模型 GPT-4.5,內部代號 Orion。這款模型被定位為迄今為止規模最大的語言模型,專注於提升無監督學習、多模態處理與情感理解能力。根據 OpenAI 官方公告,GPT-4.5 旨在提供更可靠、更自然的交互體驗,並在減少幻覺與增強人類協作方面取得突破。本文將深入探討 GPT-4.5 的技術細節、性能基準、應用場景以及對 AI 發展的潛在影響。
最重要是,香港用戶在POE上也可以嘗鮮,Preview版已經可玩,不過要訂閱用戶,而且單個Message耗點超過2,000。

GPT-4.5 的技術核心
GPT-4.5 的設計融合了多項技術創新,使其在眾多應用場景中脫穎而出。以下是其主要特點與改進:
- 無監督學習的擴展
- GPT-4.5 通過增強無監督學習能力,從未標記數據中提取更廣泛的知識。這使其能夠處理更複雜的主題,並適應多樣化的用戶需求。
- 與前代模型相比,這項技術提升了模型的“世界理解”能力,使其在生成上下文相關的回應時更具深度。
- 情感理解與交互提升
- 該模型的情感商數(EQ)大幅提高,能更準確地識別用戶意圖並生成帶有同理心的回應。例如,在面對“如何應對壓力”的提問時,GPT-4.5 可提供人性化的建議。
- 數據顯示,其在情感理解任務中的勝率對比 GPT-4o 達到 56.8% 至 63.2%。
- 幻覺減少
- 幻覺(生成不準確或虛構信息)一直是語言模型的挑戰。GPT-4.5 的 SimpleQA 幻覺率降至 37.1%,低於 GPT-4o(44%)及其他競爭模型。
- 這一進展提升了其在需要高準確性場景(如學術研究或專業寫作)中的可靠性。
- 多模態與編碼能力
- GPT-4.5 在多模態任務(如圖像與文字結合的 MMMLU,得分 85.1%)與編碼任務(如 SWE-Bench Verified,得分 38.0%)中表現出色。
- 這使其成為開發者與技術專業人士的強大工具,特別是在生成程式碼或處理複雜數據時。

性能基準測試:GPT-4.5 與競爭對手比較
OpenAI 提供了 GPT-4.5 的多項基準測試結果,與前代模型 GPT-4o 及推理專用模型 o3-mini 進行對比。以下是關鍵數據:
任務 | GPT-4.5 | GPT-4o | o3-mini |
---|---|---|---|
GPQA(科學) | 71.4% | 53.6% | 79.7% |
AIME ‘24(數學) | 36.7% | 9.3% | 87.3% |
MMMLU(多模態) | 85.1% | 81.5% | 81.1% |
MMMU(多模態) | 74.4% | 69.1% | 未提供 |
SWE-Lancer Diamond(編碼) | 32.6% | 23.3% | 10.8% |
SWE-Bench Verified(編碼) | 38.0% | 30.7% | 61.0% |
- 分析:GPT-4.5 在多模態與編碼任務中表現優異,特別是在 MMMLU(85.1%)與 SWE-Lancer Diamond(32.6%)中超越 GPT-4o。然而,在推理密集型任務(如 AIME ‘24 的數學測試,僅 36.7%)中,o3-mini(87.3%)明顯占優。
- 定位差異:GPT-4.5 並未採用 o1 或 o3-mini 的“思考前回答”策略,而是專注於通用性與快速響應,適合多功能應用場景。
可用性與應用場景
當前訪問管道
- ChatGPT 集成:GPT-4.5 目前僅對 ChatGPT Pro 用戶開放,費用為每月 200 美元。功能包括文件上傳與搜索,但不支援語音模式或視頻處理。OpenAI 計劃下週擴展至 Plus/Team 用戶,隨後推廣至 Enterprise/Edu 層級。
- API 功能:開發者可通過 Chat Completions API、Assistants API 與 Batch API 訪問,支援功能調用、結構化輸出與視覺輸入(圖像)。其成本高於 GPT-4o,具體定價仍在調整中。
潛在應用
- 內容生成:從技術文章到創意寫作,GPT-4.5 的自然語言生成能力可大幅提升效率。
- 編程支持:其在編碼基準中的表現使其成為開發者的理想助手,例如生成程式碼片段或調試複雜項目。
- 教育與研究:減少幻覺與強大的知識庫使其可用於學術協作與知識整理。
安全與倫理考量
OpenAI 強調了 GPT-4.5 的安全設計,採用監督微調(SFT)與人類反饋強化學習(RLHF)技術。根據其 Preparedness Framework,該模型經過嚴格測試,以確保輸出符合倫理與安全標準。這一舉措回應了業界對 AI 可靠性與潛在濫用的關注。
結論與未來展望
GPT-4.5 的發布展示了 OpenAI 在語言模型領域的持續創新。其在無監督學習、多模態處理與情感理解上的突破,使其成為通用 AI 應用的強大工具。雖然在推理任務中不如 o3-mini,但其協作性與可靠性為專業人士與開發者開闢了新可能性。隨著 API 功能的擴展與潛在的 GPT-5 計劃,GPT-4.5 可能只是 OpenAI 更大藍圖的起點。