為你的 AI Agent 找個好搭檔 - oh-my-opencode 模型選擇指南

1. 為什麼要為不同 Agent 選擇不同模型？

AI Team

最近在研究 oh-my-opencode 這個外掛時，我發現一個有趣的問題：外掛開發者為不同的 agent 推薦了不同廠商的大模型，但我手邊有一堆中國模型（GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5），該怎麼分配才能物盡其用？

就像一個團隊裡，有人擅長設計，有人擅長寫程式，有人擅長寫文件。模型也應該這樣分配：沒有最好的模型，只有最適合的模型。

2. 五個中國模型的「性格」分析

Code Analysis

在分配任務之前，得先了解每個模型的強項。我花了一些時間研究它們的 benchmark 數據，發現每個模型都有自己的「絕活」。

2.1 GLM 系列：智譜 AI 的雙子星

GLM-4.7（355B 參數，32B 激活）

數學推理很強（MATH 92%）
程式設計能力不錯（LiveCodeBench 84.9%）
支援多模態
價格適中（$0.60/$2.20）

GLM-5.0（744B 參數，40B 激活）

參數量翻倍，但數學基準反而下降（MATH 88%）
Agent 任務達到 SOTA 等級
幻覺率比 4.7 低 56%（這點很重要！）
最貴（$1.00/$3.20）

觀察：GLM-5.0 像是專門為複雜任務設計的，雖然數學題做得不如 4.7 快，但更穩定、更可靠。適合當「大腦」而不是「計算機」。

2.2 MiniMax-M2.5：CP 值之王

關鍵數據（~230B 參數，10B 激活）

SWE-bench Verified 最高分（80.2%）
推論速度極快（Lightning 模式 100 tok/s）
最便宜（$0.30/$1.20）
儲存需求友善（可量化到 96GB）

觀察：這就是傳說中的「又快又省」。如果你需要大量程式碼審查、快速修改，選它準沒錯。

2.3 DeepSeek-V3.2：數學天才 + 省錢專家

關鍵數據（671B 參數，37B 激活）

AIME 2026 最高分（94.17%）
IMO/IOI 金牌程度
超級便宜（$0.28/$0.42，比 GPT-4o 便宜 27 倍）
僅支援文字模式

觀察：如果你需要深度推論、長期自主運作，又不想燒錢，這是最佳選擇。

2.4 Kimi-K2.5：多模態全能王

關鍵數據（1T 參數，32B 激活）

最大上下文（256K）
最強多模態（MMMU 78.5%，OCRBench 92.3%）
支援影片理解
Agent Swarm（最多 100 個子代理）

觀察：需要處理圖片、影片、長文件的時候，它是最強選手。

3. oh-my-opencode 的 Agent 架構解析

在分配模型之前，我研究了一下 oh-my-opencode 的 agent 架構。發現它有兩類 agents：

3.1 Primary Agents（跟隨 UI 選擇的模型）

Sisyphus：總指揮，負責編排任務、分配工作
Hephaestus：深度工作者，端到端執行任務
Atlas：UI 互動的主模型
Prometheus：策略規劃者

3.2 Subagent Agents（有獨立的模型配置）

Oracle：複雜除錯、架構設計顧問（EXPENSIVE）
Librarian：文件檢索、外部函式庫查詢（CHEAP）
Explore：程式碼庫搜尋專家（CHEAP）
Metis：預規劃顧問，識別隱含意圖（EXPENSIVE）
Momus：計畫審查員（CHEAP）
Multimodal-looker：圖片/影片分析（EXPENSIVE）

3.3 Categories（根據任務類型自動調用）

還有 8 個 Categories 根據任務類型自動調用：

visual-engineering：前端 UI
ultrabrain：複雜邏輯
deep：深度工作
artistry：創意任務
quick：快速修改
unspecified-low/high：簡單/複雜任務
writing：文件產生

4. 配置思路與原則

Data Analytics

4.1 原則一：專業的人做專業的事

多模態任務 → Kimi-K2.5

理由：MMMU 78.5%，MathVision 84.2%，OCRBench 92.3%
適合：UI 設計、圖片分析、影片理解

程式碼分析 → MiniMax-M2.5

理由：SWE-bench Verified 80.2%（最高分）
適合：程式碼審查、除錯、架構分析

複雜推論 → GLM-5.0

理由：低幻覺率（比 4.7 低 56%），Agent 任務 SOTA
適合：複雜規劃、架構設計、orchestration

成本優化 → DeepSeek-V3.2

理由：超級便宜（$0.28/M），數學能力強
適合：文件檢索、長期自主運作

4.2 原則二：貴的模型用在刀口上

EXPENSIVE 等級的 agents（Oracle、Metis、Multimodal-looker）用強模型，CHEAP 等級的（Librarian、Explore、Momus）用高 CP 值模型。

5. 最終配置方案

5.1 Agents 配置表

Agent	選擇模型	理由
hephaestus	DeepSeek-V3.2	深度自主工作，需要長時間運作，選最便宜的
oracle	MiniMax-M2.5	SWE-bench 最高分，程式碼分析能力強
librarian	DeepSeek-V3.2	文件檢索不需要太強能力，選最便宜的
explore	GLM-4.7	程式碼搜尋需要平衡效能和成本
multimodal-looker	Kimi-K2.5	視覺分析必須用多模態最強的
prometheus	GLM-5.0	策略規劃需要低幻覺率、強推論
metis	Kimi-K2.5	意圖分析需要強大理解和長上下文
momus	MiniMax-M2.5	計畫審查需要快速且準確
atlas	Kimi-K2.5	UI 互動需要多模態支援

5.2 Categories 配置表

Category	選擇模型	理由
visual-engineering	Kimi-K2.5	前端 UI 設計需要多模態能力
ultrabrain	GLM-5.0	複雜邏輯需要最強推論和低幻覺
deep	DeepSeek-V3.2	深度工作需要長時間運作，成本最佳
artistry	Kimi-K2.5	創意任務需要多模態和 Agent Swarm
quick	MiniMax-M2.5	快速修改需要極快回應和低成本
unspecified-low	MiniMax-M2.5	簡單任務用 CP 值最高的
unspecified-high	GLM-5.0	複雜任務用推論最強的
writing	Kimi-K2.5	長文件需要 256K 上下文

6. 實際配置程式碼

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. 成本優化效果

Cost Optimization

相比原來全部用 opencode/glm-4.7-free（$0.60/M），現在：

任務類型	原成本	新成本	節省
文件檢索（Librarian）	$0.60/M	$0.28/M	53%
快速修改（Quick）	$0.60/M	$0.30/M	50%
深度工作（Deep）	$0.60/M	$0.28/M	53%
程式碼審查（Momus）	$0.60/M	$0.30/M	50%

8. 踩坑經驗與建議

8.1 不要迷信「最新最強」

GLM-5.0 參數量比 4.7 大一倍，但數學基準反而下降。說明參數量不是萬能的，要看具體任務需求。

8.2 多模態能力真的很重要

我之前低估了多模態的重要性。當你需要分析 UI 截圖、處理圖表、理解程式碼流程圖時，Kimi-K2.5 的表現明顯更好。

8.3 成本敏感的任務要單獨優化

Librarian 和 Explore 這類 CHEAP 等級的 agents，調用頻率高但不需要太強能力。用 DeepSeek-V3.2 後，整體成本下降明顯。

8.4 EXPENSIVE agents 要用在關鍵場景

Oracle、Metis 這些 EXPENSIVE 等級的 agents，不要為了省錢用弱模型。它們處理的是複雜任務，需要強推論能力。

8.5 實測比理論重要

配置完成後，建議測試幾個典型場景：

程式碼搜尋（會調用 Explore）
文件檢索（會調用 Librarian）
視覺分析（會調用 Multimodal-looker）
複雜架構設計（會調用 Oracle 或 Ultrabrain）

9. 總結

這次配置最大的收穫是：沒有最好的模型，只有最適合的模型。

Kimi-K2.5：多模態場景的首選，視覺分析、長文件處理
MiniMax-M2.5：程式碼審查和快速修改的神器，CP 值極高
GLM-5.0：複雜規劃和 orchestration 的「大腦」，低幻覺率很重要
DeepSeek-V3.2：深度工作和文件檢索的省錢專家
GLM-4.7：平衡型選手，適合中等複雜度任務

配置完成後，感覺整個系統的效率提升了不少。每個 agent 都在做自己最擅長的事情，成本也更合理了。

如果你也在用 oh-my-opencode，建議根據自己的使用場景調整一下配置。畢竟，找到合適的搭檔，工作效率才能翻倍。

註：本文基於 2026 年 3 月的模型數據，benchmark 和價格可能會有變動，請以最新數據為準。