| 方案 | SWE-bench Verified |
|---|---|
| GPT-5.4 nano 單獨 | 67.0% |
| 同模型 ×8 + critic-comparator | 76.4% |
| Gemini 3 Pro / Claude Opus 4.5 單獨 | ~76% |
| Oracle best-of-8 上限 | 79.0% |
弱模型 ×8 + 驗證器 ≈ 強模型單獨。2.6% 差距來自 coverage 盲區——所有弱模型都不會解的題,換更強的 selector 也沒用。
| 元件 | 作用 | 限制 |
|---|---|---|
| Proposal(生成) | 重複採樣放大 coverage | 無法自己產生 critic |
| Critic(驗證) | 外部 verification signal 篩選 | 依賴 execution / test / proof 等可自動化驗證的信號 |
| Comparator(比較) | 排名挑選最佳 proposal | local selection error 會複合成 trajectory 誤差 |
核心瓶頸:proposal coverage(提案多樣性),而非 selector 精度。殘餘失敗全是 coverage 盲區。
這篇論文直接驗證我們的多模型審查架構。核心發現——正解已在弱模型 pool 中,瓶頸是 selection——代表我們在模型多樣性和共識機制上的投資方向正確。下一步:增加模型異質性,而非優化 selector。