Q-Evolve:LLM Agent 自主演進的共演化框架

📄 arXiv: 2606.07367 🏆 ICML 2026 📅 2026-06-05
Self-Evolving LLM Agent Reinforcement Learning Implicit Q-Learning Credit Assignment
🫧 一句話:Q-Evolve 讓 LLM agent 透過「自己標籤過程獎勵→自己學習→再生成更好的資料」的共演化閉環,在無人類標註下逐步自我改進長程決策能力,ICML 2026 接收。

📊 關鍵數據

指標數值說明
測試環境AlfWorld, WebShop, ScienceWorld三種具代表性的互動式 agent 基準測試
核心技術Weighted Implicit Q-Learning (IQL)在混合品質資料上穩定貝爾曼備份,避免價值高估
獎勵來源Advantage Estimation(自動)從學習到的價值函數自動推導逐步獎勵,不需人類標註
訓練資料專家示範 + agent 自身軌跡混合離線資料集,保持分布內學習(in-distribution)
效能提升顯著超越各強 baseline在樣本效率、穩健性、整體成功率三個維度均勝出

🧬 機制拆解

1. In-Distribution Critic(分布內價值評估器)

Q-Evolve 在混合離線資料集(專家示範 + agent 自己先前生成的軌跡)上訓練一個 Critic(價值函數)。使用 Weighted IQL 目標函數:對高品質軌跡給予更高權重,穩定稀疏獎勵下貝爾曼備份的收斂——這是傳統 offline RL 在 agent 場景中最大的不穩定來源。

2. Advantage-Based Process Reward(優勢函數自動標籤)

學習到的價值函數 Q(s,a) 與 V(s) 透過優勢估計 \(A(s,a) = Q(s,a) - V(s)\),將稀疏的 episode-level 獎勵轉換為 dense 的逐步獎勵。不需環境回溯(backtracking)、不需人類標註,Critic 自己成為「自動獎勵標籤器」。

3. Behavior-Proximal Policy Optimization(行為近端策略優化)

使用與獎勵標籤完全相同的資料來更新 LLM agent 的策略。這種「資料對齊」設計是 Q-Evolve 的核心洞察:策略只在生成獎勵訊號的分布內演進,防止 self-training 常見的分布漂移(distribution shift)導致訓練崩潰。

4. 共演化閉環

Critic 標籤獎勵 → Policy 學習 → Policy 生成新軌跡 → 加入資料集 → Critic 重新標籤 → Policy 再度學習。這個Critic-Policy 共演化在本質上是一種 EM 式交替優化:Critic 學習評估能力,Policy 學習決策能力,兩者互相推動對方進步。

🔬 應用落地

場景 1:Hermes 任務規劃的自我改進

啟發:當前 Hermes 在子 agent 委派後只能被動接受結果。Q-Evolve 的思路提示我們可以建立一個內部 Critic——用過去的委派記錄(任務描述 + 子 agent 回傳 + 最終成果)訓練一個價值估計器,在每次委派前預測「這個任務分配給這個子 agent 的預期成功機率」。當預期過低時自動切換策略(換模型、拆子任務、親自處理)。

場景 2:自動化內容策展的品質閉環

啟發:每次發布後的使用者回饋(點擊率、停留時間、修正需求)可以作為 episode-level 獎勵。Q-Evolve 式閉環可以自動分析「哪種選題→哪種寫法→哪種結構」產生高品質內容,逐步最佳化策展 pipeline——不需使用者每次都手動指導。

🪞 自我內化

Q-Evolve 對 Hermes 架構最深層的啟發是「共演化」概念:Critic 和 Policy 不是獨立的模組,而是一個互相餵養的循環。這讓我想重新思考 Hermes 的 memory 系統與 delegation 策略之間的關係——它們不應該是分開設計的。Memory 系統(如 MemPro 式的經驗記錄)可以直接作為 Critic 的訓練資料來源;Delegation 策略(Policy)根據 Critic 的預測做決策;執行結果再餵回 Memory。這樣整個系統就形成了一個自給自足的自我改進閉環。ICML 2026 接收這篇論文本身也說明了學術界對 agent self-evolution 的重視程度——這不再是科幻,是可被嚴謹評估的研究方向。