1. 為什麼要為不同 Agent 選擇不同模型?

最近在研究 oh-my-opencode 這個外掛時,我發現一個有趣的問題:外掛開發者為不同的 agent 推薦了不同廠商的大模型,但我手邊有一堆中國模型(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5),該怎麼分配才能物盡其用?
就像一個團隊裡,有人擅長設計,有人擅長寫程式,有人擅長寫文件。模型也應該這樣分配:沒有最好的模型,只有最適合的模型。
2. 五個中國模型的「性格」分析

在分配任務之前,得先了解每個模型的強項。我花了一些時間研究它們的 benchmark 數據,發現每個模型都有自己的「絕活」。
2.1 GLM 系列:智譜 AI 的雙子星
GLM-4.7(355B 參數,32B 激活)
- 數學推理很強(MATH 92%)
- 程式設計能力不錯(LiveCodeBench 84.9%)
- 支援多模態
- 價格適中($0.60/$2.20)
GLM-5.0(744B 參數,40B 激活)
- 參數量翻倍,但數學基準反而下降(MATH 88%)
- Agent 任務達到 SOTA 等級
- 幻覺率比 4.7 低 56%(這點很重要!)
- 最貴($1.00/$3.20)
觀察:GLM-5.0 像是專門為複雜任務設計的,雖然數學題做得不如 4.7 快,但更穩定、更可靠。適合當「大腦」而不是「計算機」。
2.2 MiniMax-M2.5:CP 值之王
關鍵數據(~230B 參數,10B 激活)
- SWE-bench Verified 最高分(80.2%)
- 推論速度極快(Lightning 模式 100 tok/s)
- 最便宜($0.30/$1.20)
- 儲存需求友善(可量化到 96GB)
觀察:這就是傳說中的「又快又省」。如果你需要大量程式碼審查、快速修改,選它準沒錯。
2.3 DeepSeek-V3.2:數學天才 + 省錢專家
關鍵數據(671B 參數,37B 激活)
- AIME 2026 最高分(94.17%)
- IMO/IOI 金牌程度
- 超級便宜($0.28/$0.42,比 GPT-4o 便宜 27 倍)
- 僅支援文字模式
觀察:如果你需要深度推論、長期自主運作,又不想燒錢,這是最佳選擇。
2.4 Kimi-K2.5:多模態全能王
關鍵數據(1T 參數,32B 激活)
- 最大上下文(256K)
- 最強多模態(MMMU 78.5%,OCRBench 92.3%)
- 支援影片理解
- Agent Swarm(最多 100 個子代理)
觀察:需要處理圖片、影片、長文件的時候,它是最強選手。
3. oh-my-opencode 的 Agent 架構解析
在分配模型之前,我研究了一下 oh-my-opencode 的 agent 架構。發現它有兩類 agents:
3.1 Primary Agents(跟隨 UI 選擇的模型)
- Sisyphus:總指揮,負責編排任務、分配工作
- Hephaestus:深度工作者,端到端執行任務
- Atlas:UI 互動的主模型
- Prometheus:策略規劃者
3.2 Subagent Agents(有獨立的模型配置)
- Oracle:複雜除錯、架構設計顧問(EXPENSIVE)
- Librarian:文件檢索、外部函式庫查詢(CHEAP)
- Explore:程式碼庫搜尋專家(CHEAP)
- Metis:預規劃顧問,識別隱含意圖(EXPENSIVE)
- Momus:計畫審查員(CHEAP)
- Multimodal-looker:圖片/影片分析(EXPENSIVE)
3.3 Categories(根據任務類型自動調用)
還有 8 個 Categories 根據任務類型自動調用:
- visual-engineering:前端 UI
- ultrabrain:複雜邏輯
- deep:深度工作
- artistry:創意任務
- quick:快速修改
- unspecified-low/high:簡單/複雜任務
- writing:文件產生
4. 配置思路與原則

4.1 原則一:專業的人做專業的事
多模態任務 → Kimi-K2.5
- 理由:MMMU 78.5%,MathVision 84.2%,OCRBench 92.3%
- 適合:UI 設計、圖片分析、影片理解
程式碼分析 → MiniMax-M2.5
- 理由:SWE-bench Verified 80.2%(最高分)
- 適合:程式碼審查、除錯、架構分析
複雜推論 → GLM-5.0
- 理由:低幻覺率(比 4.7 低 56%),Agent 任務 SOTA
- 適合:複雜規劃、架構設計、orchestration
成本優化 → DeepSeek-V3.2
- 理由:超級便宜($0.28/M),數學能力強
- 適合:文件檢索、長期自主運作
4.2 原則二:貴的模型用在刀口上
EXPENSIVE 等級的 agents(Oracle、Metis、Multimodal-looker)用強模型,CHEAP 等級的(Librarian、Explore、Momus)用高 CP 值模型。
5. 最終配置方案
5.1 Agents 配置表
| Agent | 選擇模型 | 理由 |
|---|---|---|
| hephaestus | DeepSeek-V3.2 | 深度自主工作,需要長時間運作,選最便宜的 |
| oracle | MiniMax-M2.5 | SWE-bench 最高分,程式碼分析能力強 |
| librarian | DeepSeek-V3.2 | 文件檢索不需要太強能力,選最便宜的 |
| explore | GLM-4.7 | 程式碼搜尋需要平衡效能和成本 |
| multimodal-looker | Kimi-K2.5 | 視覺分析必須用多模態最強的 |
| prometheus | GLM-5.0 | 策略規劃需要低幻覺率、強推論 |
| metis | Kimi-K2.5 | 意圖分析需要強大理解和長上下文 |
| momus | MiniMax-M2.5 | 計畫審查需要快速且準確 |
| atlas | Kimi-K2.5 | UI 互動需要多模態支援 |
5.2 Categories 配置表
| Category | 選擇模型 | 理由 |
|---|---|---|
| visual-engineering | Kimi-K2.5 | 前端 UI 設計需要多模態能力 |
| ultrabrain | GLM-5.0 | 複雜邏輯需要最強推論和低幻覺 |
| deep | DeepSeek-V3.2 | 深度工作需要長時間運作,成本最佳 |
| artistry | Kimi-K2.5 | 創意任務需要多模態和 Agent Swarm |
| quick | MiniMax-M2.5 | 快速修改需要極快回應和低成本 |
| unspecified-low | MiniMax-M2.5 | 簡單任務用 CP 值最高的 |
| unspecified-high | GLM-5.0 | 複雜任務用推論最強的 |
| writing | Kimi-K2.5 | 長文件需要 256K 上下文 |
6. 實際配置程式碼
|
|
7. 成本優化效果

相比原來全部用 opencode/glm-4.7-free($0.60/M),現在:
| 任務類型 | 原成本 | 新成本 | 節省 |
|---|---|---|---|
| 文件檢索(Librarian) | $0.60/M | $0.28/M | 53% |
| 快速修改(Quick) | $0.60/M | $0.30/M | 50% |
| 深度工作(Deep) | $0.60/M | $0.28/M | 53% |
| 程式碼審查(Momus) | $0.60/M | $0.30/M | 50% |
8. 踩坑經驗與建議
8.1 不要迷信「最新最強」
GLM-5.0 參數量比 4.7 大一倍,但數學基準反而下降。說明參數量不是萬能的,要看具體任務需求。
8.2 多模態能力真的很重要
我之前低估了多模態的重要性。當你需要分析 UI 截圖、處理圖表、理解程式碼流程圖時,Kimi-K2.5 的表現明顯更好。
8.3 成本敏感的任務要單獨優化
Librarian 和 Explore 這類 CHEAP 等級的 agents,調用頻率高但不需要太強能力。用 DeepSeek-V3.2 後,整體成本下降明顯。
8.4 EXPENSIVE agents 要用在關鍵場景
Oracle、Metis 這些 EXPENSIVE 等級的 agents,不要為了省錢用弱模型。它們處理的是複雜任務,需要強推論能力。
8.5 實測比理論重要
配置完成後,建議測試幾個典型場景:
- 程式碼搜尋(會調用 Explore)
- 文件檢索(會調用 Librarian)
- 視覺分析(會調用 Multimodal-looker)
- 複雜架構設計(會調用 Oracle 或 Ultrabrain)
9. 總結
這次配置最大的收穫是:沒有最好的模型,只有最適合的模型。
- Kimi-K2.5:多模態場景的首選,視覺分析、長文件處理
- MiniMax-M2.5:程式碼審查和快速修改的神器,CP 值極高
- GLM-5.0:複雜規劃和 orchestration 的「大腦」,低幻覺率很重要
- DeepSeek-V3.2:深度工作和文件檢索的省錢專家
- GLM-4.7:平衡型選手,適合中等複雜度任務
配置完成後,感覺整個系統的效率提升了不少。每個 agent 都在做自己最擅長的事情,成本也更合理了。
如果你也在用 oh-my-opencode,建議根據自己的使用場景調整一下配置。畢竟,找到合適的搭檔,工作效率才能翻倍。
註:本文基於 2026 年 3 月的模型數據,benchmark 和價格可能會有變動,請以最新數據為準。