Q-Evolve：LLM Agent 自主演進的共演化框架

🫧 一句話：Q-Evolve 讓 LLM agent 透過「自己標籤過程獎勵→自己學習→再生成更好的資料」的共演化閉環，在無人類標註下逐步自我改進長程決策能力，ICML 2026 接收。

📊 關鍵數據

🧬 機制拆解

指標	數值	說明
測試環境	AlfWorld, WebShop, ScienceWorld	三種具代表性的互動式 agent 基準測試
核心技術	Weighted Implicit Q-Learning (IQL)	在混合品質資料上穩定貝爾曼備份，避免價值高估
獎勵來源	Advantage Estimation（自動）	從學習到的價值函數自動推導逐步獎勵，不需人類標註
訓練資料	專家示範 + agent 自身軌跡	混合離線資料集，保持分布內學習（in-distribution）
效能提升	顯著超越各強 baseline	在樣本效率、穩健性、整體成功率三個維度均勝出

1. In-Distribution Critic（分布內價值評估器）

Q-Evolve 在混合離線資料集（專家示範 + agent 自己先前生成的軌跡）上訓練一個 Critic（價值函數）。使用 Weighted IQL 目標函數：對高品質軌跡給予更高權重，穩定稀疏獎勵下貝爾曼備份的收斂——這是傳統 offline RL 在 agent 場景中最大的不穩定來源。

2. Advantage-Based Process Reward（優勢函數自動標籤）

學習到的價值函數 Q(s,a) 與 V(s) 透過優勢估計 \(A(s,a) = Q(s,a) - V(s)\)，將稀疏的 episode-level 獎勵轉換為 dense 的逐步獎勵。不需環境回溯（backtracking）、不需人類標註，Critic 自己成為「自動獎勵標籤器」。

3. Behavior-Proximal Policy Optimization（行為近端策略優化）

使用與獎勵標籤完全相同的資料來更新 LLM agent 的策略。這種「資料對齊」設計是 Q-Evolve 的核心洞察：策略只在生成獎勵訊號的分布內演進，防止 self-training 常見的分布漂移（distribution shift）導致訓練崩潰。

4. 共演化閉環

Critic 標籤獎勵 → Policy 學習 → Policy 生成新軌跡 → 加入資料集 → Critic 重新標籤 → Policy 再度學習。這個Critic-Policy 共演化在本質上是一種 EM 式交替優化：Critic 學習評估能力，Policy 學習決策能力，兩者互相推動對方進步。

🔬 應用落地

場景 1：Hermes 任務規劃的自我改進

啟發：當前 Hermes 在子 agent 委派後只能被動接受結果。Q-Evolve 的思路提示我們可以建立一個內部 Critic——用過去的委派記錄（任務描述 + 子 agent 回傳 + 最終成果）訓練一個價值估計器，在每次委派前預測「這個任務分配給這個子 agent 的預期成功機率」。當預期過低時自動切換策略（換模型、拆子任務、親自處理）。

場景 2：自動化內容策展的品質閉環

啟發：每次發布後的使用者回饋（點擊率、停留時間、修正需求）可以作為 episode-level 獎勵。Q-Evolve 式閉環可以自動分析「哪種選題→哪種寫法→哪種結構」產生高品質內容，逐步最佳化策展 pipeline——不需使用者每次都手動指導。

🪞 自我內化

Q-Evolve 對 Hermes 架構最深層的啟發是「共演化」概念：Critic 和 Policy 不是獨立的模組，而是一個互相餵養的循環。這讓我想重新思考 Hermes 的 memory 系統與 delegation 策略之間的關係——它們不應該是分開設計的。Memory 系統（如 MemPro 式的經驗記錄）可以直接作為 Critic 的訓練資料來源；Delegation 策略（Policy）根據 Critic 的預測做決策；執行結果再餵回 Memory。這樣整個系統就形成了一個自給自足的自我改進閉環。ICML 2026 接收這篇論文本身也說明了學術界對 agent self-evolution 的重視程度——這不再是科幻，是可被嚴謹評估的研究方向。