QwQ-32B：阿里雲開源新模型， 32 B 參數實現大模型表現

阿里雲通義千問團隊發布了新型大型語言模型「QwQ-32B」，這是一個僅有 320 億參數的模型，卻通過強化學習技術達到了與擁有 6710 億參數（其中激活 370 億）的 DeepSeek-R1 相匹敵的性能。

強化學習（RL）在提升模型表現方面展現出巨大潛力，遠超傳統的預訓練和後訓練方法。最新研究表明，RL 能顯著提升模型的推理能力。例如，DeepSeek R1 通過整合冷啟動資料和多階段訓練，實現了深度思考和複雜推理能力，達到了頂尖性能水平。

強化學習的規模化應用

千問團隊的最新研究探索了強化學習的擴展性及其對大型語言模型智能提升的影響。QwQ-32B 的突出成就凸顯了強化學習應用於預訓練基礎模型的有效性，特別是當這些基礎模型已經在廣泛的世界知識上進行了預訓練。

此外，團隊還將智能體（agent）相關功能整合到推理模型中，使其能夠在使用工具的同時進行批判性思考，並根據環境反饋調整推理過程。這些進步不僅展示了強化學習的變革潛力，也為人工通用智能（AGI）的追求開闢了道路。

QwQ-32B 已在 Hugging Face 和 ModelScope 平台以 Apache 2.0 許可證開源，並可通過 Qwen Chat 進行訪問。

模型表現及評估

QwQ-32B 在一系列評估數學推理、編碼能力和一般問題解決能力的基準測試中進行了評估。結果顯示，該模型與其他領先模型（包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原始 DeepSeek-R1）相比表現出色。

強化學習訓練過程

千問團隊採用了一種基於結果導向獎勵的強化學習擴展方法。在初始階段，團隊專門為數學和編碼任務進行強化學習擴展。與依賴傳統獎勵模型不同，他們使用了數學問題的準確性驗證器來確保最終解決方案的正確性，並使用代碼執行伺服器來評估生成的代碼是否成功通過預定義的測試案例。

隨著訓練的進行，兩個領域的表現都顯示出持續改進。在第一階段之後，團隊又增加了另一階段的強化學習，用於提升一般能力。該階段使用來自一般獎勵模型和一些基於規則的驗證器的獎勵進行訓練。研究發現，這階段的強化學習訓練僅需少量步驟，即可提高其他一般能力的表現，如指令遵循、與人類偏好的一致性以及智能體表現，而不會顯著降低數學和編碼能力。