隨著大型語言模型(LLM)在推理與生成任務的表現日益優異,如何讓這些模型更好地「搜尋」與「檢索」成為學界與產業界的焦點。《ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching》由阿里巴巴達摩院團隊提出,旨在解決現有強化學習搜尋訓練所面臨的兩大難題:無法控制文件品質,以及真實搜尋引擎API成本過高。ZEROSEARCH 提供一個創新解法——完全不依賴真實搜尋引擎,而是在訓練過程中用 LLM 自行模擬搜尋環境,逐步提升模型的搜尋與推理能力。
背景與動機
為何 LLM 需要「會搜尋」?
雖然 LLM 具備強大的語言生成能力,但其知識庫受限於預訓練語料,容易生成虛構或過時資訊。為了讓 LLM 能產生更精確可靠的答案,結合外部知識來源——即「檢索增強生成」(RAG)——已成主流。然而,現有方法普遍仰賴 prompt 工程與真實搜尋引擎,導致訓練不穩、計算資源與API成本龐大,難以大規模推廣。
RL 搜尋訓練的痛點
以強化學習(RL)訓練 LLM 搜尋能力雖然有效,但面臨兩大挑戰:
- 文件品質不可控:搜尋引擎返回的結果品質不一,增加訓練噪音與不穩定性。
- API 成本高昂:RL 訓練需大量互動,每次 rollout 都需實時查詢,API 費用隨規模暴增,影響模型擴展性。
關鍵技術細節
文件品質控制與微調
模擬搜尋 LLM 的微調資料,來自與真實搜尋引擎的互動軌跡。正確答案的軌跡標記為「有用」,錯誤則為「雜訊」。用 prompt 調整生成風格,使模型能依指令產出不同品質的文件,兼顧泛化與擬真性。
強化學習訓練
ZEROSEARCH 支援多種主流 RL 方法,包括 Proximal Policy Optimization(PPO)、Group Relative Policy Optimization(GRPO)、Reinforce++ 等。為穩定訓練,僅對政策模型自有生成結果計算損失(loss masking),避免外部文件噪音影響梯度。
獎勵設計
以 F1 分數衡量答案品質,平衡精確率與召回率,避免模型為了「猜中」而產生過長答案。無需對格式特別設計額外獎勵,模型能自發維持良好結構。
實驗與分析
效能總結
在七大問答資料集(如 NQ、TriviaQA、HotpotQA 等)上,ZEROSEARCH 不僅全面超越各類傳統檢索增強方法(包括真實搜尋引擎基礎的 Search-R1),還展現出極強的穩定性與泛化能力。7B 參數的模擬搜尋 LLM 已能媲美 Google Search,14B 甚至超越。
多模型與多規模驗證
無論是 Qwen-2.5-7B/3B、LLaMA-3.2-3B(Base 或 Instruct 版),ZEROSEARCH 皆表現優越,且模型規模越大,檢索模擬能力越強。這證明了此策略的可擴展性與通用性。
成本與資源分析
根據實驗,Google 搜尋 API 約需 586.7 美元/12 小時,ZEROSEARCH 僅需 GPU 成本 17.7~70.8 美元,節省超過 90% 訓練開銷。若 GPU 資源共享,成本可進一步壓縮。
訓練穩定性與策略學習
ZEROSEARCH 的 reward 曲線平穩,早期略慢但最終超越真實搜尋引擎訓練組。互動回合數逐步優化,模型學會主動減少冗餘查詢,策略明顯提升。
案例展示
在問答互動範例中,ZEROSEARCH 能自動分多輪搜尋、推理,最終準確給出答案。例如:
- 問「Smokey the Bear 配音者的配偶」,模型自動先查配音者,再查配偶,最終正確回答「Katharine Ross」。
- 問「第三古老大學的官方顏色」,模型先檢索大學,再查顏色,最後正確給出「Cambridge Blue」。
局限與挑戰
ZEROSEARCH 需部署模擬搜尋 LLM 至 GPU 伺服器,雖然比商業API便宜,但仍有基礎設施門檻。且訓練時 GPU 利用率不均,資源分配需進一步優化。