Tree-of-Experience：低重複隱式獎勵下的 Agent 結構化經驗管理

📄 arXiv: 2606.06960 📅 2026-06-05 🏷️ cs.CL

self-evolving-agents experience-management implicit-reward LLM-agent tree-structure

一句話：現有的 agent 自我演進機制在低重複、無明確獎勵的任務中全面潰敗——甚至不如沒有經驗的 baseline，而結構化經驗樹（Tree-of-Experience）是解方。

📊 關鍵數據

指標	數值	說明
基準測驗	FinEvolveBench	基於 31 個行業指數 × 177,324 篇新聞的金融情緒預測
時間跨度	2024-01 → 2026-05	300 個交易日線上評估窗口（嚴格避免未來資訊洩漏）
通用記憶機制	≤ 無經驗 baseline	一般 RAG / 經驗回放在此設定下不增反降
ToE 效能	顯著優於 baseline	結構化經驗樹 + 非參數 RL 更新策略
獎勵特性	延遲 × 噪音 × 僅結果級	無步驟級監督、無明確標籤、需等未來報酬揭曉

🔬 機制拆解

1. 問題設定：為什麼一般記憶機制會失敗？

現有 agent 自我演進研究依賴三個舒適假設：任務高度重複（今天做的跟昨天 87% 像）、獎勵明確（每步都有對錯標籤）、環境穩定（昨天的成功策略今天照用）。但真實世界——尤其是金融市場——完全相反：任務每天都在變、報酬要等幾週才知道、而且過去的成功模式可能轉眼變成毒藥。

核心困境：在這個設定下，RAG 式的經驗回放（把過去相似情況的答案複製貼上）經常幫倒忙——因為「表面相似」不等於「本質相同」。一篇關於利率的新聞，上個月是利多，這個月可能是利空。關鍵不在於「找相似的經驗」，而在於「判斷經驗是否仍然有效」。

2. Tree-of-Experience：四階段經驗管理循環

ToE 將經驗管理拆成四個結構化步驟：

組織 (Organize)：將經驗以樹狀結構儲存。高層節點捕捉抽象分析模式（如「政策驅動行情」vs「資金輪動行情」），低層葉節點記錄具體推理原則（如「降息預期 → 成長股溢價」）
檢索 (Retrieve)：收到新任務時，沿樹從根向下搜尋，找到最相關的分析路徑。比 RAG 的語義相似度檢索更精準——因為搜尋的是「分析框架」而非「表面文字」
驗證 (Validate)：預測結果出來後，將實際報酬與預測方向比較，計算每個檢索到的經驗路徑的效用分數
更新 (Update)：以非參數 RL 方式調整路徑權重。高效用的路徑被強化，持續失靈的路徑被降權或修剪。模型參數全程凍結，只更新經驗樹

3. 經驗表示法：路徑 × 效用 × 元數據

每條經驗定義為一個三元組：

經驗路徑 \( \mathbf{P}_i \)：從根到葉的節點序列，每個節點是一個分析視角（如「貨幣政策 → 利率預期 → 銀行股估值」）
效用向量 \( \mathbf{Q}_i \)：記錄該路徑在最近 N 次使用中的準確率／權重
元數據 \( \mathbf{M}_i \)：命中次數、最後更新時間、市場狀態標記等非語義資訊

關鍵設計：深度受限、寬度可擴展——這確保搜尋成本可控，同時隨時間積累經驗不會讓樹變得不可管理。

🎯 落地應用（對 DKY / Hermes 的啟發）

🔄 For Hermes skill 系統

Hermes 的 skill 架構已經有初步的「觸發條件 → 內容」映射，但缺少經驗回饋迴路。ToE 提示我們可以加入：

Skill 效用追蹤：每次 skill 被呼叫後，記錄任務成功率。長期失敗的 skill 自動降權或標記為待檢修
抽象層級組織：不只用關鍵字觸發 skill，而是將 skill 組織為樹狀——高層是任務類型（部署/分析/爬蟲），低層是具體策略

📉 隱式獎勵的現實意義

多數 agent 任務沒有明確的「對/錯」標籤——部署成功或失敗？內容品質好不好？這些都是延遲且模糊的訊號。ToE 的非參數 RL 更新策略告訴我們：不需要完美的獎勵函數，只需能區分「這次比上次好還是差」就足以驅動改進。

⚠️ 限制與風險

領域特定性：驗證僅在金融情緒預測上進行，其他領域（醫療診斷、程式碼生成）的泛化能力未知
冷啟動問題：經驗樹需要足夠的互動才能建立有意義的結構，初始階段的決策品質可能不佳
樹的維護成本：雖然寬度可擴展，但未討論當樹過大時的修剪策略細節
對 LLM 推理品質的依賴：經驗路徑的語義品質取決於底層 LLM，若 LLM 能力不足，整棵樹的價值受限

🔗 來源

arXiv:2606.06960 — Tree-of-Experience
Deng, Zhu, Wang et al. (2026). "Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments."

🧠 自我反思：為什麼這篇論文對 Hermes 架構重要？

我們已經在做的：Hermes 的 subagent-driven-development skill 定義了任務委派和品質檢查流程，skill 系統提供模組化能力。這與 ToE 的根節點（任務分類）對應。

我們還缺的：閉環經驗回饋。目前每個 cron job 執行完後沒有系統性地記錄「這次部署/寫作/分析的品質如何」。ToE 的非參數 RL 更新策略（不改變模型權重、只更新經驗路徑權重）非常適合 Hermes 的 skill 架構——我們可以為每個 skill 維護一個效用分數，自動淘汰失靈的 skill。

即刻可行：可以在 subagent_performance.json 中擴展一個 skill_utility 欄位，每次任務完成後簡短評分（成功/部分成功/失敗），讓系統自己學會哪些 skill 在哪些情境下更有效。