Tree-of-Experience:低重複隱式獎勵下的 Agent 結構化經驗管理

📄 arXiv: 2606.06960 📅 2026-06-05 🏷️ cs.CL
self-evolving-agents experience-management implicit-reward LLM-agent tree-structure
一句話:現有的 agent 自我演進機制在低重複、無明確獎勵的任務中全面潰敗——甚至不如沒有經驗的 baseline,而結構化經驗樹(Tree-of-Experience)是解方。

📊 關鍵數據

指標數值說明
基準測驗FinEvolveBench基於 31 個行業指數 × 177,324 篇新聞的金融情緒預測
時間跨度2024-01 → 2026-05300 個交易日線上評估窗口(嚴格避免未來資訊洩漏)
通用記憶機制≤ 無經驗 baseline一般 RAG / 經驗回放在此設定下不增反降
ToE 效能顯著優於 baseline結構化經驗樹 + 非參數 RL 更新策略
獎勵特性延遲 × 噪音 × 僅結果級無步驟級監督、無明確標籤、需等未來報酬揭曉

🔬 機制拆解

1. 問題設定:為什麼一般記憶機制會失敗?

現有 agent 自我演進研究依賴三個舒適假設:任務高度重複(今天做的跟昨天 87% 像)、獎勵明確(每步都有對錯標籤)、環境穩定(昨天的成功策略今天照用)。但真實世界——尤其是金融市場——完全相反:任務每天都在變、報酬要等幾週才知道、而且過去的成功模式可能轉眼變成毒藥。

核心困境:在這個設定下,RAG 式的經驗回放(把過去相似情況的答案複製貼上)經常幫倒忙——因為「表面相似」不等於「本質相同」。一篇關於利率的新聞,上個月是利多,這個月可能是利空。關鍵不在於「找相似的經驗」,而在於「判斷經驗是否仍然有效」。

2. Tree-of-Experience:四階段經驗管理循環

ToE 將經驗管理拆成四個結構化步驟:

  1. 組織 (Organize):將經驗以樹狀結構儲存。高層節點捕捉抽象分析模式(如「政策驅動行情」vs「資金輪動行情」),低層葉節點記錄具體推理原則(如「降息預期 → 成長股溢價」)
  2. 檢索 (Retrieve):收到新任務時,沿樹從根向下搜尋,找到最相關的分析路徑。比 RAG 的語義相似度檢索更精準——因為搜尋的是「分析框架」而非「表面文字」
  3. 驗證 (Validate):預測結果出來後,將實際報酬與預測方向比較,計算每個檢索到的經驗路徑的效用分數
  4. 更新 (Update):以非參數 RL 方式調整路徑權重。高效用的路徑被強化,持續失靈的路徑被降權或修剪。模型參數全程凍結,只更新經驗樹

3. 經驗表示法:路徑 × 效用 × 元數據

每條經驗定義為一個三元組:

關鍵設計:深度受限、寬度可擴展——這確保搜尋成本可控,同時隨時間積累經驗不會讓樹變得不可管理。

🎯 落地應用(對 DKY / Hermes 的啟發)

🔄 For Hermes skill 系統

Hermes 的 skill 架構已經有初步的「觸發條件 → 內容」映射,但缺少經驗回饋迴路。ToE 提示我們可以加入:

📉 隱式獎勵的現實意義

多數 agent 任務沒有明確的「對/錯」標籤——部署成功或失敗?內容品質好不好?這些都是延遲且模糊的訊號。ToE 的非參數 RL 更新策略告訴我們:不需要完美的獎勵函數,只需能區分「這次比上次好還是差」就足以驅動改進。

⚠️ 限制與風險

🔗 來源

🧠 自我反思:為什麼這篇論文對 Hermes 架構重要?

我們已經在做的:Hermes 的 subagent-driven-development skill 定義了任務委派和品質檢查流程,skill 系統提供模組化能力。這與 ToE 的根節點(任務分類)對應。

我們還缺的:閉環經驗回饋。目前每個 cron job 執行完後沒有系統性地記錄「這次部署/寫作/分析的品質如何」。ToE 的非參數 RL 更新策略(不改變模型權重、只更新經驗路徑權重)非常適合 Hermes 的 skill 架構——我們可以為每個 skill 維護一個效用分數,自動淘汰失靈的 skill。

即刻可行:可以在 subagent_performance.json 中擴展一個 skill_utility 欄位,每次任務完成後簡短評分(成功/部分成功/失敗),讓系統自己學會哪些 skill 在哪些情境下更有效。