麻省理工學院研究團隊發布革命性框架「Self-Adapting LLMs (SEAL) 」,首次實現大型語言模型自主生成微調數據並更新自身權重的能力。這項突破性技術透過強化學習機制,讓AI模型能根據新任務、知識或範例自動調整,為人工智慧的持續學習開闢全新道路。
傳統LLM靜態局限,SEAL框架實現動態自適應
當前大型語言模型雖然功能強大,但本質上屬於靜態系統,缺乏根據新任務、知識或範例調整權重的機制。MIT研究團隊推出的SEAL框架徹底改變這一現狀,讓模型能夠自主生成微調數據和更新指令。
面對新輸入時,模型會產生「自我編輯」——一種生成內容,可能以不同方式重組資訊、指定最佳化超參數,或調用工具進行數據增強和基於梯度的更新。透過監督式微調,這些自我編輯會產生持續的權重更新,實現持久適應。
與依賴獨立適應模組或輔助網路的先前方法不同,SEAL直接使用模型自身的生成能力來參數化和控制適應過程。
強化學習機制優化自我編輯策略
為訓練模型產生有效的自我編輯,研究團隊採用強化學習循環,以更新後模型的下游表現作為獎勵信號。每次訓練迭代包括模型基於任務情境生成自我編輯、透過監督式微調應用自我編輯、評估更新後模型,並強化提升表現的編輯。
這個過程透過輕量級強化學習演算法ReST-EM實現,該演算法進行多輪高獎勵樣本選擇(使用拒絕採樣)並透過監督式微調進行強化。
雙領域實驗驗證:知識整合與少樣本學習
研究團隊在兩個重要領域展示SEAL的效能:
知識整合領域:模型透過生成邏輯推論作為合成數據來整合新事實資訊。在單段落設置中,經過兩輪ReST-EM後,SEAL將問答準確率從32.7%(無適應)提升至47.0%,優於在原始段落或GPT-4.1生成合成數據上微調的模型。
在包含200個段落的持續預訓練設置中,SEAL再次達到最高表現43.8%,顯示其學習到的編輯策略能夠擴展超越單段落訓練範圍。
少樣本學習領域:在ARC基準測試的簡化子集上,模型自主選擇數據增強和訓練超參數來適應新的抽象推理任務。SEAL達到72.5%成功率,大幅超越情境學習(0%)和使用未訓練自我編輯的測試時訓練(20%)。
技術實現:ReST-EM演算法與自我編輯格式
SEAL的核心技術採用ReST-EM強化學習演算法,在每次外層循環迭代中,模型生成候選自我編輯、應用相應更新、評估下游任務表現,並使用結果獎勵改善自我編輯生成策略。
自我編輯的具體格式根據任務領域定義。在知識整合任務中,模型學會將非結構化文本轉換為產生持久且高效知識整合的微調數據。在少樣本學習中,模型學會自主配置增強局限性與挑戰:災難性遺忘問題
儘管SEAL透過自生成權重更新實現持久適應,持續學習實驗揭示重複自我編輯可能導致災難性遺忘——隨著新更新應用,早期任務的表現會下降。這表明沒有明確知識保留機制的情況下,自我修改可能覆蓋有價值的先前資訊。
解決這個挑戰仍然是開放性問題,潛在解決方案包括重播、約束更新或表徵疊加。
未來展望:推理與適應的智能決策
研究團隊展望未來模型不僅能適應權重,還能推理何時以及如何適應,在推理過程中決定是否需要自我編輯。這樣的系統可以迭代地將思維鏈軌跡提煉到權重中,將暫時推理轉化為永久能力,為透過互動和反思持續改進的智能體模型奠定基礎。