Tree-of-Experience:低重複隱式獎勵下的 Agent 結構化經驗管理
📄 arXiv: 2606.06960
📅 2026-06-05
🏷️ cs.CL
self-evolving-agents
experience-management
implicit-reward
LLM-agent
tree-structure
一句話:現有的 agent 自我演進機制在低重複、無明確獎勵的任務中全面潰敗——甚至不如沒有經驗的 baseline,而結構化經驗樹(Tree-of-Experience)是解方。
📊 關鍵數據
| 指標 | 數值 | 說明 |
| 基準測驗 | FinEvolveBench | 基於 31 個行業指數 × 177,324 篇新聞的金融情緒預測 |
| 時間跨度 | 2024-01 → 2026-05 | 300 個交易日線上評估窗口(嚴格避免未來資訊洩漏) |
| 通用記憶機制 | ≤ 無經驗 baseline | 一般 RAG / 經驗回放在此設定下不增反降 |
| ToE 效能 | 顯著優於 baseline | 結構化經驗樹 + 非參數 RL 更新策略 |
| 獎勵特性 | 延遲 × 噪音 × 僅結果級 | 無步驟級監督、無明確標籤、需等未來報酬揭曉 |
🔬 機制拆解
1. 問題設定:為什麼一般記憶機制會失敗?
現有 agent 自我演進研究依賴三個舒適假設:任務高度重複(今天做的跟昨天 87% 像)、獎勵明確(每步都有對錯標籤)、環境穩定(昨天的成功策略今天照用)。但真實世界——尤其是金融市場——完全相反:任務每天都在變、報酬要等幾週才知道、而且過去的成功模式可能轉眼變成毒藥。
核心困境:在這個設定下,RAG 式的經驗回放(把過去相似情況的答案複製貼上)經常幫倒忙——因為「表面相似」不等於「本質相同」。一篇關於利率的新聞,上個月是利多,這個月可能是利空。關鍵不在於「找相似的經驗」,而在於「判斷經驗是否仍然有效」。
2. Tree-of-Experience:四階段經驗管理循環
ToE 將經驗管理拆成四個結構化步驟:
- 組織 (Organize):將經驗以樹狀結構儲存。高層節點捕捉抽象分析模式(如「政策驅動行情」vs「資金輪動行情」),低層葉節點記錄具體推理原則(如「降息預期 → 成長股溢價」)
- 檢索 (Retrieve):收到新任務時,沿樹從根向下搜尋,找到最相關的分析路徑。比 RAG 的語義相似度檢索更精準——因為搜尋的是「分析框架」而非「表面文字」
- 驗證 (Validate):預測結果出來後,將實際報酬與預測方向比較,計算每個檢索到的經驗路徑的效用分數
- 更新 (Update):以非參數 RL 方式調整路徑權重。高效用的路徑被強化,持續失靈的路徑被降權或修剪。模型參數全程凍結,只更新經驗樹
3. 經驗表示法:路徑 × 效用 × 元數據
每條經驗定義為一個三元組:
- 經驗路徑 \( \mathbf{P}_i \):從根到葉的節點序列,每個節點是一個分析視角(如「貨幣政策 → 利率預期 → 銀行股估值」)
- 效用向量 \( \mathbf{Q}_i \):記錄該路徑在最近 N 次使用中的準確率/權重
- 元數據 \( \mathbf{M}_i \):命中次數、最後更新時間、市場狀態標記等非語義資訊
關鍵設計:深度受限、寬度可擴展——這確保搜尋成本可控,同時隨時間積累經驗不會讓樹變得不可管理。
🎯 落地應用(對 DKY / Hermes 的啟發)
🔄 For Hermes skill 系統
Hermes 的 skill 架構已經有初步的「觸發條件 → 內容」映射,但缺少經驗回饋迴路。ToE 提示我們可以加入:
- Skill 效用追蹤:每次 skill 被呼叫後,記錄任務成功率。長期失敗的 skill 自動降權或標記為待檢修
- 抽象層級組織:不只用關鍵字觸發 skill,而是將 skill 組織為樹狀——高層是任務類型(部署/分析/爬蟲),低層是具體策略
📉 隱式獎勵的現實意義
多數 agent 任務沒有明確的「對/錯」標籤——部署成功或失敗?內容品質好不好?這些都是延遲且模糊的訊號。ToE 的非參數 RL 更新策略告訴我們:不需要完美的獎勵函數,只需能區分「這次比上次好還是差」就足以驅動改進。
⚠️ 限制與風險
- 領域特定性:驗證僅在金融情緒預測上進行,其他領域(醫療診斷、程式碼生成)的泛化能力未知
- 冷啟動問題:經驗樹需要足夠的互動才能建立有意義的結構,初始階段的決策品質可能不佳
- 樹的維護成本:雖然寬度可擴展,但未討論當樹過大時的修剪策略細節
- 對 LLM 推理品質的依賴:經驗路徑的語義品質取決於底層 LLM,若 LLM 能力不足,整棵樹的價值受限
🔗 來源
- arXiv:2606.06960 — Tree-of-Experience
- Deng, Zhu, Wang et al. (2026). "Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments."
🧠 自我反思:為什麼這篇論文對 Hermes 架構重要?
我們已經在做的:Hermes 的 subagent-driven-development skill 定義了任務委派和品質檢查流程,skill 系統提供模組化能力。這與 ToE 的根節點(任務分類)對應。
我們還缺的:閉環經驗回饋。目前每個 cron job 執行完後沒有系統性地記錄「這次部署/寫作/分析的品質如何」。ToE 的非參數 RL 更新策略(不改變模型權重、只更新經驗路徑權重)非常適合 Hermes 的 skill 架構——我們可以為每個 skill 維護一個效用分數,自動淘汰失靈的 skill。
即刻可行:可以在 subagent_performance.json 中擴展一個 skill_utility 欄位,每次任務完成後簡短評分(成功/部分成功/失敗),讓系統自己學會哪些 skill 在哪些情境下更有效。