《Disney +》 迪士尼、Marvel、彼思、星球大戰…  最後一位!大亂鬥SP最終新增鬥士將於10月5日22點發表!   試食限量發售軟綿綿「伊布東京香蕉」   「Nintendo Switch Online + 擴充包」詳情發表!   DelightWorks設立新公司「株式会社ラセングル」繼承所有包括FGO等的遊戲事業   PSP 初代女神異聞錄 & 2 罪‧罰最後降價!三千日圓買三款遊戲還有找零!   目標是成為傳說的貓皇!「貓咪大尋寶」登場!   Ubisoft二日限時特賣 刺客教條超過半價!   Sanwa Supply開始販售超簡約的電競桌「100-DESKG004」!喜愛簡約設計的人必看的品項! 

QwQ-32B:阿里雲開源新模型, 32 B 參數實現大模型表現

商業

阿里雲通義千問團隊發布了新型大型語言模型「QwQ-32B」,這是一個僅有 320 億參數的模型,卻通過強化學習技術達到了與擁有 6710 億參數(其中激活 370 億)的 DeepSeek-R1 相匹敵的性能。

強化學習(RL)在提升模型表現方面展現出巨大潛力,遠超傳統的預訓練和後訓練方法。最新研究表明,RL 能顯著提升模型的推理能力。例如,DeepSeek R1 通過整合冷啟動資料和多階段訓練,實現了深度思考和複雜推理能力,達到了頂尖性能水平。

強化學習的規模化應用

千問團隊的最新研究探索了強化學習的擴展性及其對大型語言模型智能提升的影響。QwQ-32B 的突出成就凸顯了強化學習應用於預訓練基礎模型的有效性,特別是當這些基礎模型已經在廣泛的世界知識上進行了預訓練。

此外,團隊還將智能體(agent)相關功能整合到推理模型中,使其能夠在使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。這些進步不僅展示了強化學習的變革潛力,也為人工通用智能(AGI)的追求開闢了道路。

QwQ-32B 已在 Hugging Face 和 ModelScope 平台以 Apache 2.0 許可證開源,並可通過 Qwen Chat 進行訪問。

模型表現及評估

QwQ-32B 在一系列評估數學推理、編碼能力和一般問題解決能力的基準測試中進行了評估。結果顯示,該模型與其他領先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1)相比表現出色。

強化學習訓練過程

千問團隊採用了一種基於結果導向獎勵的強化學習擴展方法。在初始階段,團隊專門為數學和編碼任務進行強化學習擴展。與依賴傳統獎勵模型不同,他們使用了數學問題的準確性驗證器來確保最終解決方案的正確性,並使用代碼執行伺服器來評估生成的代碼是否成功通過預定義的測試案例。

隨著訓練的進行,兩個領域的表現都顯示出持續改進。在第一階段之後,團隊又增加了另一階段的強化學習,用於提升一般能力。該階段使用來自一般獎勵模型和一些基於規則的驗證器的獎勵進行訓練。研究發現,這階段的強化學習訓練僅需少量步驟,即可提高其他一般能力的表現,如指令遵循、與人類偏好的一致性以及智能體表現,而不會顯著降低數學和編碼能力。

未來發展方向

千問團隊表示,QwQ-32B 僅是他們在規模化強化學習以增強推理能力方面的第一步。通過這一探索過程,團隊不僅見證了規模化強化學習的巨大潛力,也意識到預訓練語言模型中尚未開發的可能性。

隨著下一代千問模型的開發,團隊相信將更強大的基礎模型與由規模化計算資源支持的強化學習相結合,將推動人工通用智能(AGI)的實現。此外,團隊也在積極探索將智能體與強化學習整合,以實現長期推理,旨在通過推理時間擴展釋放更強大的智能。

參考來源:https://qwenlm.github.io/blog/qwq-32b/

TechApple

隨機商業新聞

NordVPN