给你的AI Agent找个好搭档 - oh-my-opencode模型选择指南

1. 为什么要为不同Agent选择不同模型？

AI Team

最近在折腾oh-my-opencode这个插件时，我发现一个有趣的问题：插件开发者为不同的agent推荐了不同厂家的大模型，但我手头有一堆国产模型（GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5），该怎么分配才能物尽其用？

就像一个团队里，有人擅长设计，有人擅长代码，有人擅长文档。模型也应该这样分配：没有最好的模型，只有最适合的模型。

2. 五个国产模型的"性格"分析

Code Analysis

在分配任务之前，得先了解每个模型的特长。我花了些时间研究它们的benchmark数据，发现每个模型都有自己的"绝活"。

2.1 GLM系列：智谱AI的双子星

GLM-4.7（355B参数，32B激活）

数学推理很强（MATH 92%）
编程能力在线（LiveCodeBench 84.9%）
支持多模态
价格适中（$0.60/$2.20）

GLM-5.0（744B参数，40B激活）

参数量翻倍，但数学基准反而下降（MATH 88%）
Agent任务SOTA级别
幻觉率比4.7低56%（这点很重要！）
最贵（$1.00/$3.20）

观察：GLM-5.0像是专门为复杂任务设计的，虽然数学题做得不如4.7快，但更稳、更可靠。适合做"大脑"而不是"计算器"。

2.2 MiniMax-M2.5：性价比之王

关键数据（~230B参数，10B激活）

SWE-bench Verified最高分（80.2%）
推理速度极快（Lightning模式100 tok/s）
最便宜（$0.30/$1.20）
存储需求友好（可量化到96GB）

观察：这就是传说中的"又快又省"。如果你需要大量代码审查、快速修改，选它准没错。

2.3 DeepSeek-V3.2：数学天才+省钱专家

关键数据（671B参数，37B激活）

AIME 2026最高分（94.17%）
IMO/IOI金牌水平
极致便宜（$0.28/$0.42，比GPT-4o便宜27倍）
仅文本模式

观察：如果你需要深度推理、长期自主工作，又不想烧钱，这是最佳选择。

2.4 Kimi-K2.5：多模态全能王

关键数据（1T参数，32B激活）

最大上下文（256K）
最强多模态（MMMU 78.5%，OCRBench 92.3%）
支持视频理解
Agent Swarm（最多100个子代理）

观察：需要处理图像、视频、长文档的时候，它是最强选手。

3. oh-my-opencode的Agent架构解析

在分配模型之前，我研究了一下oh-my-opencode的agent架构。发现它有两类agents：

3.1 Primary Agents（跟随UI选择的模型）

Sisyphus：总指挥，负责编排任务、委托工作
Hephaestus：深度工作者，端到端执行任务
Atlas：UI交互的主模型
Prometheus：战略规划者

3.2 Subagent Agents（有独立的模型配置）

Oracle：复杂调试、架构设计顾问（EXPENSIVE）
Librarian：文档检索、外部库查询（CHEAP）
Explore：代码库搜索专家（CHEAP）
Metis：预规划顾问，识别隐含意图（EXPENSIVE）
Momus：计划审查员（CHEAP）
Multimodal-looker：图像/视频分析（EXPENSIVE）

3.3 Categories（根据任务类型自动调用）

还有8个Categories根据任务类型自动调用：

visual-engineering：前端UI
ultrabrain：复杂逻辑
deep：深度工作
artistry：创意任务
quick：快速修改
unspecified-low/high：简单/复杂任务
writing：文档生成

4. 配置思路与原则

Data Analytics

4.1 原则一：专业的人做专业的事

多模态任务 → Kimi-K2.5

理由：MMMU 78.5%，MathVision 84.2%，OCRBench 92.3%
适合：UI设计、图像分析、视频理解

代码分析 → MiniMax-M2.5

理由：SWE-bench Verified 80.2%（最高分）
适合：代码审查、调试、架构分析

复杂推理 → GLM-5.0

理由：低幻觉率（比4.7低56%），Agent任务SOTA
适合：复杂规划、架构设计、orchestration

成本优化 → DeepSeek-V3.2

理由：极致便宜（$0.28/M），数学能力强
适合：文档检索、长期自主工作

4.2 原则二：贵的模型用在刀刃上

EXPENSIVE级别的agents（Oracle、Metis、Multimodal-looker）用强模型，CHEAP级别的（Librarian、Explore、Momus）用性价比模型。

5. 最终配置方案

5.1 Agents配置表

Agent	选择模型	理由
hephaestus	DeepSeek-V3.2	深度自主工作，需要长时间运行，选最便宜的
oracle	MiniMax-M2.5	SWE-bench最高分，代码分析能力强
librarian	DeepSeek-V3.2	文档检索不需要太强能力，选最便宜的
explore	GLM-4.7	代码搜索需要平衡性能和成本
multimodal-looker	Kimi-K2.5	视觉分析必须用多模态最强的
prometheus	GLM-5.0	战略规划需要低幻觉率、强推理
metis	Kimi-K2.5	意图分析需要强大理解和长上下文
momus	MiniMax-M2.5	计划审查需要快速且准确
atlas	Kimi-K2.5	UI交互需要多模态支持

5.2 Categories配置表

Category	选择模型	理由
visual-engineering	Kimi-K2.5	前端UI设计需要多模态能力
ultrabrain	GLM-5.0	复杂逻辑需要最强推理和低幻觉
deep	DeepSeek-V3.2	深度工作需要长时间运行，成本最优
artistry	Kimi-K2.5	创意任务需要多模态和Agent Swarm
quick	MiniMax-M2.5	快速修改需要极快响应和低成本
unspecified-low	MiniMax-M2.5	简单任务用性价比最高的
unspecified-high	GLM-5.0	复杂任务用推理最强的
writing	Kimi-K2.5	长文档需要256K上下文

6. 实际配置代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. 成本优化效果

Cost Optimization

相比原来全部用opencode/glm-4.7-free（$0.60/M），现在：

任务类型	原成本	新成本	节省
文档检索（Librarian）	$0.60/M	$0.28/M	53%
快速修改（Quick）	$0.60/M	$0.30/M	50%
深度工作（Deep）	$0.60/M	$0.28/M	53%
代码审查（Momus）	$0.60/M	$0.30/M	50%

8. 踩坑经验与建议

8.1 不要迷信"最新最强"

GLM-5.0参数量比4.7大一倍，但数学基准反而下降。说明参数量不是万能的，要看具体任务需求。

8.2 多模态能力真的很重要

我之前低估了多模态的重要性。当你需要分析UI截图、处理图表、理解代码流程图时，Kimi-K2.5的表现明显更好。

8.3 成本敏感的任务要单独优化

Librarian和Explore这类CHEAP级别的agents，调用频率高但不需要太强能力。用DeepSeek-V3.2后，整体成本下降明显。

8.4 EXPENSIVE agents要用在关键场景

Oracle、Metis这些EXPENSIVE级别的agents，不要为了省钱用弱模型。它们处理的是复杂任务，需要强推理能力。

8.5 测试比理论重要

配置完成后，建议测试几个典型场景：

代码搜索（会调用Explore）
文档检索（会调用Librarian）
视觉分析（会调用Multimodal-looker）
复杂架构设计（会调用Oracle或Ultrabrain）

9. 总结

这次配置最大的收获是：没有最好的模型，只有最适合的模型。

Kimi-K2.5：多模态场景的首选，视觉分析、长文档处理
MiniMax-M2.5：代码审查和快速修改的神器，性价比极高
GLM-5.0：复杂规划和orchestration的"大脑"，低幻觉率很重要
DeepSeek-V3.2：深度工作和文档检索的省钱专家
GLM-4.7：平衡型选手，适合中等复杂度任务

配置完成后，感觉整个系统的效率提升了不少。每个agent都在做自己最擅长的事情，成本也更合理了。

如果你也在用oh-my-opencode，建议根据自己的使用场景调整一下配置。毕竟，找到合适的搭档，工作效率才能翻倍。

注：本文基于2026年3月的模型数据，benchmark和价格可能会有变化，请以最新数据为准。