隨著 DeepSeek 的橫空出世,AI 產業迎來了新的革新浪潮。在未來幾個月內,整個行業都將隨之調整,而我們也即將見證這股技術浪潮如何改變未來。為了幫助更多人理解這些關鍵技術,本篇文章將用簡單易懂的方式,帶你快速了解相關術語及其背後的創新。
![DeepSeek 技術談:強化學習,GPRO 及 SFT 3](https://techapple.com/wp-content/uploads/2025/02/DEEPSEEK-FLOW-890x1024.webp)
什麼是神經網絡(Neural Networks)?
神經網絡是一種模擬生物神經系統的人工技術架構, 它是現代 AI 的基礎之一。這類架構,大形的會由數百萬甚至數十億個「人工神經元」組成,並通過層級結構處理數據,從中學習規律並進行預測。
神經網絡的運作方式
- 層級結構(Layered Structure):
神經網絡通常由三層組成:- 輸入層(Input Layer): 接收數據,例如圖像的像素值或文字的數字表示。
- 隱藏層(Hidden Layer): 將輸入數據進行處理和特徵提取。
- 輸出層(Output Layer): 將處理結果輸出,例如分類結果或預測值。
- 權重調整(Weight Adjustment):
每個神經元之間都有一個「權重」,用於衡量數據的重要性。神經網絡通過調整這些權重,學習如何更準確地處理數據。 - 反向傳播(Backpropagation):
神經網絡通過不斷比較模型預測與實際結果之間的誤差,並利用反向傳播算法來調整權重,逐步提高準確性。
如果把神經網絡比作一個烘焙師學習做蛋糕:
- 輸入層: 食材的種類和數量(例如麵粉 500 克、糖 100 克)。
- 隱藏層: 烘焙師根據食材嘗試不同的混合和烘焙方式。
- 輸出層: 最終的蛋糕是否符合口味(例如甜度適中、外觀完美)。
- 反向傳播: 如果蛋糕不符合預期,烘焙師會記住錯誤並在下一次改進配方。
總結來說,神經網絡的強大之處在於它能通過大量數據進行自動學習,並從中提取有用的規律,廣泛應用於語音識別、圖像分類、語言生成等領域。
什麼是強化學習(Reinforcement Learning, RL)?
在孩子學步的過程中,成功站穩是「良好結果」,這種結果是可量化的。而在 AI 的世界裡,我們需要用另一種方法來教育模型,尤其是面對推理或語言問題。這就是 強化學習 的用武之地。
強化學習如何運作?
- 獎勵機制(Reward Mechanism):
電腦因正確答案獲得獎勵,錯誤答案則受懲罰。這套機制幫助 AI 確定哪些行動能帶來更好的結果。 - 時間演化(Temporal Evolution):
將 AI 的學習過程視為「數千代的進化」。每一代中,AI 嘗試隨機參數,成功的配置會「存活」並優化至下一輪。
簡而言之,強化學習就像 AI 的試錯過程。 電腦通過「記住並強化能帶來獎勵的行動」,逐步學習解決問題的最佳方法。
DeepSeek 的群組相對策略優化(Grouped Relative Policy Optimization, GRPO)
DeepSeek 團隊推出了一項突破性技術,群組相對策略優化(GRGRPO 是 DeepSeek 團隊開創的強化學習框架,用於解決傳統 RL 訓練中對標註數據的依賴問題。相比於傳統的 PPO (Proximal Policy Optimization) 方法,GRPO 不需要「評論者模型 (Critic Model)」的引導,而是通過預定規則和群組內的相對評分進行模型優化。
核心特點:
- 無評論者模型:
- 傳統 RL 方法依賴評論者模型來評估輸出動作是否合理,但評論者模型的表現往往受限於標註數據的質量和覆蓋範圍。
- GRPO 則跳過評論者模型,直接利用預定規則對輸出進行評分,並根據群組平均表現進行比較和優化。
- 基於規則的評分:
- GRPO 使用一組簡單的規則來評估模型輸出的品質,例如:
- 一致性 (Coherence): 輸出的內容是否合邏輯。
- 完整性 (Completeness): 回答是否符合預期格式。
- 流暢性 (Fluency): 語言表達是否自然。
- 這些規則不需要完全正確,只需足夠接近「理想輸出」的標準即可。
- GRPO 使用一組簡單的規則來評估模型輸出的品質,例如:
- 相對比較學習:
- 每次訓練中,模型的輸出會與同一批次內的其他結果進行比較,得分高於群組平均值的輸出會被保留,用於後續的優化。
應用場景:
在數學和邏輯推理任務中,GRPO 能夠根據輸出的邏輯一致性和數學原則進行評分,即使沒有正確答案,也能指導模型逐步學會生成符合規則的答案。
GRPO 的優勢:
提升推理能力: 特別是在數學、編程和邏輯推理任務中,能達到與 OpenAI o1 模型相當的水準。
擺脫標註數據依賴: 不需要大量人工標註數據,降低了訓練成本。
促進自主學習: 模型能夠通過多輪迭代,逐步優化其行為策略。
監督式微調 (SFT, Supervised Fine-Tuning):提升模型的可讀性與實用性
監督式微調 是 DeepSeek-R1 訓練過程中的重要環節,用於克服純強化學習 (RL) 模型(如 DeepSeek-R1-Zero)在語言表達上的缺陷,例如可讀性差和語言混雜等問題。以下是 SFT 的應用方式:
應用步驟:
- 冷啟動數據 (Cold Start Data):
- 使用了數千條經過最小標註的數據,幫助模型建立任務的基礎理解。這些數據雖然數量不多,但作為基礎訓練十分關鍵,為後續的強化學習奠定結構化基礎。
- 示例:FAQ 的簡單問答數據集,為模型提供基本語言結構和格式。
- 混合數據訓練:
- 在後期,模型的訓練數據集合不僅包括冷啟動數據,還融合了純 RL 過程中生成的高質量合成數據(例如使用拒絕採樣篩選的優秀輸出)。
- 此外,還加入了來自特定領域的高品質監督數據(如寫作、事實問答和邏輯推理),確保模型在多領域的表現更加穩定。
- 語言表達優化:
- 通過 SFT,模型學習了用戶期望的語言風格和格式,特別是在多輪對話、格式化輸出以及邏輯清晰度上,顯著提升了用戶體驗。
SFT 的優勢:
- 提升語言流暢性: 幫助模型生成更自然、更清晰的回答。
- 強化一致性: 確保輸出內容在不同場景中的穩定性。
- 擴展多領域能力: 融合監督數據後,模型在寫作、推理和自我認知等多個領域表現更出色。
DeepSeek 模型的進化之路
DeepSeek-R1-Zero:探索 AI 的極限
- 基於 V3 架構的開創性模型,展現了強化推理能力。
- 缺點:邏輯跳躍性強,混雜多種語言,商業應用受限。
- 優點:成為重要的研究工具和 AI 訓練資源。
DeepSeek-R1:實用化的突破
- 通過 監督式微調(Supervised Fine-Tuning, SFT),大幅提升模型的可讀性與實用性。
- 精選範例訓練,讓模型輸出更符合用戶期待的對話風格與格式。
- 現已上線測試版,用戶可在 chat.deepseek.com 體驗。
總結:DeepSeek 的未來願景
DeepSeek 使用 GRPO 與 SFT,提升了 AI 的推理能力與溝通能力,為實現更高效、更自主的 AI 解決方案開路。
參考來源:
來自 Hong Kong, Antony Ma, Founder & CEO of Hoplite Tech : https://aipedals.substack.com/p/key-terms-and-techs-in-the-deepseek?triedRedirect=true
https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it