ZEROSEARCH：不依賴真實搜尋，激發大型語言模型的搜尋能力

隨著大型語言模型（LLM）在推理與生成任務的表現日益優異，如何讓這些模型更好地「搜尋」與「檢索」成為學界與產業界的焦點。《ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching》由阿里巴巴達摩院團隊提出，旨在解決現有強化學習搜尋訓練所面臨的兩大難題：無法控制文件品質，以及真實搜尋引擎API成本過高。ZEROSEARCH 提供一個創新解法——完全不依賴真實搜尋引擎，而是在訓練過程中用 LLM 自行模擬搜尋環境，逐步提升模型的搜尋與推理能力。

背景與動機

為何 LLM 需要「會搜尋」？

雖然 LLM 具備強大的語言生成能力，但其知識庫受限於預訓練語料，容易生成虛構或過時資訊。為了讓 LLM 能產生更精確可靠的答案，結合外部知識來源——即「檢索增強生成」（RAG）——已成主流。然而，現有方法普遍仰賴 prompt 工程與真實搜尋引擎，導致訓練不穩、計算資源與API成本龐大，難以大規模推廣。

RL 搜尋訓練的痛點

以強化學習（RL）訓練 LLM 搜尋能力雖然有效，但面臨兩大挑戰：

文件品質不可控：搜尋引擎返回的結果品質不一，增加訓練噪音與不穩定性。
API 成本高昂：RL 訓練需大量互動，每次 rollout 都需實時查詢，API 費用隨規模暴增，影響模型擴展性。

關鍵技術細節

文件品質控制與微調

模擬搜尋 LLM 的微調資料，來自與真實搜尋引擎的互動軌跡。正確答案的軌跡標記為「有用」，錯誤則為「雜訊」。用 prompt 調整生成風格，使模型能依指令產出不同品質的文件，兼顧泛化與擬真性。

強化學習訓練

ZEROSEARCH 支援多種主流 RL 方法，包括 Proximal Policy Optimization（PPO）、Group Relative Policy Optimization（GRPO）、Reinforce++ 等。為穩定訓練，僅對政策模型自有生成結果計算損失（loss masking），避免外部文件噪音影響梯度。