百度文心大模型4.5與X1齊發，AI多模態時代再進化

百度智能雲正式發布文心大模型4.5與文心大模型X1，並同步上線於文心一言官網及千帆大模型平台，免費對用戶開放。此舉標誌著百度在人工智能多模態基礎模型與深度思考模型領域的技術創新與商業落地再度邁進關鍵一步。本文將深入解析兩款大模型的核心技術、能力亮點、應用場景及其對產業智能化的深遠影響。

文心大模型4.5：多模態原生基礎大模型

文心大模型4.5由百度自主研發，定位為新一代「原生多模態基礎大模型」。它不僅能協同優化多種模態（文字、圖片、音頻與視頻）之間的聯合建模，還在語言、邏輯、記憶、去幻覺和代碼能力方面實現全面提升。這意味著文心4.5能更準確地理解文本、圖片等複雜輸入，並生成高質量、多元內容。

多模態能力是文心4.5的核心優勢。面對結合圖表與文字的複雜題目，文心4.5可綜合理解、抽絲剝繭，給出完整的解題步驟與詳盡分析。即使是網絡梗圖、諷刺漫畫等高階語義，也能迅速領會其中巧妙之處，並對隱含的邏輯和數學概念作出精確解釋。

文心4.5的顯著提升，得益於多項關鍵技術突破：

FlashMask動態注意力掩碼：大幅提升長序列建模與多輪交互效率，優化長文處理能力。
多模態異構專家擴展技術：針對不同模態特徵，構建異構專家網絡，並通過自適應損失函數，解決梯度不均衡，提升多模態融合。
時空維度表徵壓縮技術：提升圖片及視頻語義壓縮效率，增強長視頻知識提取能力。
知識點大規模數據構建技術：通過分級采樣、數據融合與稀缺知識點合成，打造高知識密度預訓練語料，顯著降低模型幻覺。
自反饋Post-training技術：融合多種評價方式，提升強化學習的穩定性和魯棒性，加強模型與人類意圖的對齊。

文心大模型X1：自主工具運用的深度思考模型

文心大模型X1主打「深度思考」，其最大突破在於具備更強的理解、規劃、反思與進化能力，並支援多模態。X1為首個能自主運用工具的大模型，展現出在中文知識問答、文學創作、邏輯推理、複雜計算、日常對話等場景的全面能力。

目前，X1已可調用包括高級搜索、文檔問答、圖片理解、AI繪圖、代碼解釋器、網頁鏈接讀取、TreeMind樹圖、百度學術檢索、商業信息查詢等多款工具。舉例而言，用戶可讓X1根據中國歷代人物典故，替換文學作品《寒窯賦》中的事例，X1會明確主旨、分析風格、選取案例、參考結構，最終創作出立意與文風高度一致的新文本。

X1的突破來自以下技術支撐：

遞進式強化學習訓練方法：在創作、搜索、工具調用、推理等場景，全面提升模型綜合應用能力。
基於思維鏈和行動鏈的端到端訓練：針對深度搜索、工具調用等任務，根據結果反饋進行全流程訓練，顯著提升準確性。
多元統一獎勵系統：融合多類型獎勵機制，為模型訓練提供更強健的反饋，增強模型的泛化與魯棒性。

商業化與應用場景：低成本，開放性，創新提速

目前，在百度智能雲千帆大模型平台，企業與開發者可直接調用文心大模型4.5 API，價格低至每千tokens 0.004元（輸入），0.016元（輸出）。X1即將上線，費率更低至每千tokens 0.002元（輸入）、0.008元（輸出）。這種低成本、高開放度的策略，旨在讓企業與開發者以最小門檻探索AI應用，加速從概念到落地的轉化，推動AI技術在各行業的廣泛應用。

百度智能雲千帆大模型平台堅持全流程、一站式AI服務理念，將開放性、易用性與低成本作為平台核心。開發者可高效調用各類大模型資源，提升創新效率，推動產業智能化進程。