Featured image of post 為你的 AI Agent 找個好搭檔 - oh-my-opencode 模型選擇指南

為你的 AI Agent 找個好搭檔 - oh-my-opencode 模型選擇指南

如何為 oh-my-opencode 的不同 agent 選擇最適合的中國大模型?本文基於 GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2 和 Kimi-K2.5 的深度研究,提供了一套經實戰驗證的配置方案,幫助你達成效能與成本的最佳平衡。

1. 為什麼要為不同 Agent 選擇不同模型?

AI Team

最近在研究 oh-my-opencode 這個外掛時,我發現一個有趣的問題:外掛開發者為不同的 agent 推薦了不同廠商的大模型,但我手邊有一堆中國模型(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5),該怎麼分配才能物盡其用?

就像一個團隊裡,有人擅長設計,有人擅長寫程式,有人擅長寫文件。模型也應該這樣分配:沒有最好的模型,只有最適合的模型

2. 五個中國模型的「性格」分析

Code Analysis

在分配任務之前,得先了解每個模型的強項。我花了一些時間研究它們的 benchmark 數據,發現每個模型都有自己的「絕活」。

2.1 GLM 系列:智譜 AI 的雙子星

GLM-4.7(355B 參數,32B 激活)

  • 數學推理很強(MATH 92%)
  • 程式設計能力不錯(LiveCodeBench 84.9%)
  • 支援多模態
  • 價格適中($0.60/$2.20)

GLM-5.0(744B 參數,40B 激活)

  • 參數量翻倍,但數學基準反而下降(MATH 88%)
  • Agent 任務達到 SOTA 等級
  • 幻覺率比 4.7 低 56%(這點很重要!)
  • 最貴($1.00/$3.20)

觀察:GLM-5.0 像是專門為複雜任務設計的,雖然數學題做得不如 4.7 快,但更穩定、更可靠。適合當「大腦」而不是「計算機」。

2.2 MiniMax-M2.5:CP 值之王

關鍵數據(~230B 參數,10B 激活)

  • SWE-bench Verified 最高分(80.2%)
  • 推論速度極快(Lightning 模式 100 tok/s)
  • 最便宜($0.30/$1.20)
  • 儲存需求友善(可量化到 96GB)

觀察:這就是傳說中的「又快又省」。如果你需要大量程式碼審查、快速修改,選它準沒錯。

2.3 DeepSeek-V3.2:數學天才 + 省錢專家

關鍵數據(671B 參數,37B 激活)

  • AIME 2026 最高分(94.17%)
  • IMO/IOI 金牌程度
  • 超級便宜($0.28/$0.42,比 GPT-4o 便宜 27 倍)
  • 僅支援文字模式

觀察:如果你需要深度推論、長期自主運作,又不想燒錢,這是最佳選擇。

2.4 Kimi-K2.5:多模態全能王

關鍵數據(1T 參數,32B 激活)

  • 最大上下文(256K)
  • 最強多模態(MMMU 78.5%,OCRBench 92.3%)
  • 支援影片理解
  • Agent Swarm(最多 100 個子代理)

觀察:需要處理圖片、影片、長文件的時候,它是最強選手。

3. oh-my-opencode 的 Agent 架構解析

在分配模型之前,我研究了一下 oh-my-opencode 的 agent 架構。發現它有兩類 agents:

3.1 Primary Agents(跟隨 UI 選擇的模型)

  • Sisyphus:總指揮,負責編排任務、分配工作
  • Hephaestus:深度工作者,端到端執行任務
  • Atlas:UI 互動的主模型
  • Prometheus:策略規劃者

3.2 Subagent Agents(有獨立的模型配置)

  • Oracle:複雜除錯、架構設計顧問(EXPENSIVE)
  • Librarian:文件檢索、外部函式庫查詢(CHEAP)
  • Explore:程式碼庫搜尋專家(CHEAP)
  • Metis:預規劃顧問,識別隱含意圖(EXPENSIVE)
  • Momus:計畫審查員(CHEAP)
  • Multimodal-looker:圖片/影片分析(EXPENSIVE)

3.3 Categories(根據任務類型自動調用)

還有 8 個 Categories 根據任務類型自動調用:

  • visual-engineering:前端 UI
  • ultrabrain:複雜邏輯
  • deep:深度工作
  • artistry:創意任務
  • quick:快速修改
  • unspecified-low/high:簡單/複雜任務
  • writing:文件產生

4. 配置思路與原則

Data Analytics

4.1 原則一:專業的人做專業的事

多模態任務 → Kimi-K2.5

  • 理由:MMMU 78.5%,MathVision 84.2%,OCRBench 92.3%
  • 適合:UI 設計、圖片分析、影片理解

程式碼分析 → MiniMax-M2.5

  • 理由:SWE-bench Verified 80.2%(最高分)
  • 適合:程式碼審查、除錯、架構分析

複雜推論 → GLM-5.0

  • 理由:低幻覺率(比 4.7 低 56%),Agent 任務 SOTA
  • 適合:複雜規劃、架構設計、orchestration

成本優化 → DeepSeek-V3.2

  • 理由:超級便宜($0.28/M),數學能力強
  • 適合:文件檢索、長期自主運作

4.2 原則二:貴的模型用在刀口上

EXPENSIVE 等級的 agents(Oracle、Metis、Multimodal-looker)用強模型,CHEAP 等級的(Librarian、Explore、Momus)用高 CP 值模型。

5. 最終配置方案

5.1 Agents 配置表

Agent 選擇模型 理由
hephaestus DeepSeek-V3.2 深度自主工作,需要長時間運作,選最便宜的
oracle MiniMax-M2.5 SWE-bench 最高分,程式碼分析能力強
librarian DeepSeek-V3.2 文件檢索不需要太強能力,選最便宜的
explore GLM-4.7 程式碼搜尋需要平衡效能和成本
multimodal-looker Kimi-K2.5 視覺分析必須用多模態最強的
prometheus GLM-5.0 策略規劃需要低幻覺率、強推論
metis Kimi-K2.5 意圖分析需要強大理解和長上下文
momus MiniMax-M2.5 計畫審查需要快速且準確
atlas Kimi-K2.5 UI 互動需要多模態支援

5.2 Categories 配置表

Category 選擇模型 理由
visual-engineering Kimi-K2.5 前端 UI 設計需要多模態能力
ultrabrain GLM-5.0 複雜邏輯需要最強推論和低幻覺
deep DeepSeek-V3.2 深度工作需要長時間運作,成本最佳
artistry Kimi-K2.5 創意任務需要多模態和 Agent Swarm
quick MiniMax-M2.5 快速修改需要極快回應和低成本
unspecified-low MiniMax-M2.5 簡單任務用 CP 值最高的
unspecified-high GLM-5.0 複雜任務用推論最強的
writing Kimi-K2.5 長文件需要 256K 上下文

6. 實際配置程式碼

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. 成本優化效果

Cost Optimization

相比原來全部用 opencode/glm-4.7-free($0.60/M),現在:

任務類型 原成本 新成本 節省
文件檢索(Librarian) $0.60/M $0.28/M 53%
快速修改(Quick) $0.60/M $0.30/M 50%
深度工作(Deep) $0.60/M $0.28/M 53%
程式碼審查(Momus) $0.60/M $0.30/M 50%

8. 踩坑經驗與建議

8.1 不要迷信「最新最強」

GLM-5.0 參數量比 4.7 大一倍,但數學基準反而下降。說明參數量不是萬能的,要看具體任務需求。

8.2 多模態能力真的很重要

我之前低估了多模態的重要性。當你需要分析 UI 截圖、處理圖表、理解程式碼流程圖時,Kimi-K2.5 的表現明顯更好。

8.3 成本敏感的任務要單獨優化

Librarian 和 Explore 這類 CHEAP 等級的 agents,調用頻率高但不需要太強能力。用 DeepSeek-V3.2 後,整體成本下降明顯。

8.4 EXPENSIVE agents 要用在關鍵場景

Oracle、Metis 這些 EXPENSIVE 等級的 agents,不要為了省錢用弱模型。它們處理的是複雜任務,需要強推論能力。

8.5 實測比理論重要

配置完成後,建議測試幾個典型場景:

  • 程式碼搜尋(會調用 Explore)
  • 文件檢索(會調用 Librarian)
  • 視覺分析(會調用 Multimodal-looker)
  • 複雜架構設計(會調用 Oracle 或 Ultrabrain)

9. 總結

這次配置最大的收穫是:沒有最好的模型,只有最適合的模型

  • Kimi-K2.5:多模態場景的首選,視覺分析、長文件處理
  • MiniMax-M2.5:程式碼審查和快速修改的神器,CP 值極高
  • GLM-5.0:複雜規劃和 orchestration 的「大腦」,低幻覺率很重要
  • DeepSeek-V3.2:深度工作和文件檢索的省錢專家
  • GLM-4.7:平衡型選手,適合中等複雜度任務

配置完成後,感覺整個系統的效率提升了不少。每個 agent 都在做自己最擅長的事情,成本也更合理了。

如果你也在用 oh-my-opencode,建議根據自己的使用場景調整一下配置。畢竟,找到合適的搭檔,工作效率才能翻倍。


註:本文基於 2026 年 3 月的模型數據,benchmark 和價格可能會有變動,請以最新數據為準。