| 實驗 | 架構 | N=1 (無睡眠) | N=4~8 (有睡眠) | 改善 |
|---|---|---|---|---|
| Cellular Automaton (t=32) | 4L GDN-Attention hybrid | 接近隨機 | 顯著提升 | N 越大越好 |
| Depo 多跳圖檢索 | 4L GDN-Attention hybrid | 基準線 | 加速收斂 | 更難查詢改善更大 |
| GSM-Infinite 數學推理 | Jet-Nemotron 2B / Ouro 1.4B | 基準線 | 高難度題目顯著提升 | 算術步驟越多,N 效益越大 |
N = 睡眠期間的離線循環次數。所有比較在相同 token 預算下進行。
SSM-Attention 混合模型(如 MambaFormer、Jet)的瓶頸不是記憶容量,而是壓縮上下文時的算力不足。當 KV cache 被清空後,模型無法對已移出注意力視窗的內容進行深度推理。
在上下文視窗滿時,模型進入「睡眠」:
① 對累積的上下文執行 N 次離線循環前向傳播
② 每次循環透過學習到的局部規則更新 SSM 區塊中的 fast weights
③ 睡眠結束後清空 KV cache,用更新後的 fast weights 繼續單次推理
④ 訓練時端到端反向傳播,梯度穿過整個睡眠過程
動物睡眠期間,海馬迴短期記憶被重新激活並鞏固至皮層突觸權重。同樣地,模型的「睡眠」將注意力緩存中的短期上下文轉化為持久的 fast weights。
傳統循環模型(如 Universal Transformer)在預測時循環。本方法將循環移到記憶鞏固階段,預測時仍是單次前向傳播——不增加推論延遲。
跨上下文視窗的循環幾乎不增加訓練開銷;循環深度 N 與成本呈線性關係。在 1×H200 GPU 上,N=8 的吞吐量僅比 N=1 低約 30%。