1. 为什么要为不同Agent选择不同模型?

最近在折腾oh-my-opencode这个插件时,我发现一个有趣的问题:插件开发者为不同的agent推荐了不同厂家的大模型,但我手头有一堆国产模型(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5),该怎么分配才能物尽其用?
就像一个团队里,有人擅长设计,有人擅长代码,有人擅长文档。模型也应该这样分配:没有最好的模型,只有最适合的模型。
2. 五个国产模型的"性格"分析

在分配任务之前,得先了解每个模型的特长。我花了些时间研究它们的benchmark数据,发现每个模型都有自己的"绝活"。
2.1 GLM系列:智谱AI的双子星
GLM-4.7(355B参数,32B激活)
- 数学推理很强(MATH 92%)
- 编程能力在线(LiveCodeBench 84.9%)
- 支持多模态
- 价格适中($0.60/$2.20)
GLM-5.0(744B参数,40B激活)
- 参数量翻倍,但数学基准反而下降(MATH 88%)
- Agent任务SOTA级别
- 幻觉率比4.7低56%(这点很重要!)
- 最贵($1.00/$3.20)
观察:GLM-5.0像是专门为复杂任务设计的,虽然数学题做得不如4.7快,但更稳、更可靠。适合做"大脑"而不是"计算器"。
2.2 MiniMax-M2.5:性价比之王
关键数据(~230B参数,10B激活)
- SWE-bench Verified最高分(80.2%)
- 推理速度极快(Lightning模式100 tok/s)
- 最便宜($0.30/$1.20)
- 存储需求友好(可量化到96GB)
观察:这就是传说中的"又快又省"。如果你需要大量代码审查、快速修改,选它准没错。
2.3 DeepSeek-V3.2:数学天才+省钱专家
关键数据(671B参数,37B激活)
- AIME 2026最高分(94.17%)
- IMO/IOI金牌水平
- 极致便宜($0.28/$0.42,比GPT-4o便宜27倍)
- 仅文本模式
观察:如果你需要深度推理、长期自主工作,又不想烧钱,这是最佳选择。
2.4 Kimi-K2.5:多模态全能王
关键数据(1T参数,32B激活)
- 最大上下文(256K)
- 最强多模态(MMMU 78.5%,OCRBench 92.3%)
- 支持视频理解
- Agent Swarm(最多100个子代理)
观察:需要处理图像、视频、长文档的时候,它是最强选手。
3. oh-my-opencode的Agent架构解析
在分配模型之前,我研究了一下oh-my-opencode的agent架构。发现它有两类agents:
3.1 Primary Agents(跟随UI选择的模型)
- Sisyphus:总指挥,负责编排任务、委托工作
- Hephaestus:深度工作者,端到端执行任务
- Atlas:UI交互的主模型
- Prometheus:战略规划者
3.2 Subagent Agents(有独立的模型配置)
- Oracle:复杂调试、架构设计顾问(EXPENSIVE)
- Librarian:文档检索、外部库查询(CHEAP)
- Explore:代码库搜索专家(CHEAP)
- Metis:预规划顾问,识别隐含意图(EXPENSIVE)
- Momus:计划审查员(CHEAP)
- Multimodal-looker:图像/视频分析(EXPENSIVE)
3.3 Categories(根据任务类型自动调用)
还有8个Categories根据任务类型自动调用:
- visual-engineering:前端UI
- ultrabrain:复杂逻辑
- deep:深度工作
- artistry:创意任务
- quick:快速修改
- unspecified-low/high:简单/复杂任务
- writing:文档生成
4. 配置思路与原则

4.1 原则一:专业的人做专业的事
多模态任务 → Kimi-K2.5
- 理由:MMMU 78.5%,MathVision 84.2%,OCRBench 92.3%
- 适合:UI设计、图像分析、视频理解
代码分析 → MiniMax-M2.5
- 理由:SWE-bench Verified 80.2%(最高分)
- 适合:代码审查、调试、架构分析
复杂推理 → GLM-5.0
- 理由:低幻觉率(比4.7低56%),Agent任务SOTA
- 适合:复杂规划、架构设计、orchestration
成本优化 → DeepSeek-V3.2
- 理由:极致便宜($0.28/M),数学能力强
- 适合:文档检索、长期自主工作
4.2 原则二:贵的模型用在刀刃上
EXPENSIVE级别的agents(Oracle、Metis、Multimodal-looker)用强模型,CHEAP级别的(Librarian、Explore、Momus)用性价比模型。
5. 最终配置方案
5.1 Agents配置表
| Agent | 选择模型 | 理由 |
|---|---|---|
| hephaestus | DeepSeek-V3.2 | 深度自主工作,需要长时间运行,选最便宜的 |
| oracle | MiniMax-M2.5 | SWE-bench最高分,代码分析能力强 |
| librarian | DeepSeek-V3.2 | 文档检索不需要太强能力,选最便宜的 |
| explore | GLM-4.7 | 代码搜索需要平衡性能和成本 |
| multimodal-looker | Kimi-K2.5 | 视觉分析必须用多模态最强的 |
| prometheus | GLM-5.0 | 战略规划需要低幻觉率、强推理 |
| metis | Kimi-K2.5 | 意图分析需要强大理解和长上下文 |
| momus | MiniMax-M2.5 | 计划审查需要快速且准确 |
| atlas | Kimi-K2.5 | UI交互需要多模态支持 |
5.2 Categories配置表
| Category | 选择模型 | 理由 |
|---|---|---|
| visual-engineering | Kimi-K2.5 | 前端UI设计需要多模态能力 |
| ultrabrain | GLM-5.0 | 复杂逻辑需要最强推理和低幻觉 |
| deep | DeepSeek-V3.2 | 深度工作需要长时间运行,成本最优 |
| artistry | Kimi-K2.5 | 创意任务需要多模态和Agent Swarm |
| quick | MiniMax-M2.5 | 快速修改需要极快响应和低成本 |
| unspecified-low | MiniMax-M2.5 | 简单任务用性价比最高的 |
| unspecified-high | GLM-5.0 | 复杂任务用推理最强的 |
| writing | Kimi-K2.5 | 长文档需要256K上下文 |
6. 实际配置代码
|
|
7. 成本优化效果

相比原来全部用opencode/glm-4.7-free($0.60/M),现在:
| 任务类型 | 原成本 | 新成本 | 节省 |
|---|---|---|---|
| 文档检索(Librarian) | $0.60/M | $0.28/M | 53% |
| 快速修改(Quick) | $0.60/M | $0.30/M | 50% |
| 深度工作(Deep) | $0.60/M | $0.28/M | 53% |
| 代码审查(Momus) | $0.60/M | $0.30/M | 50% |
8. 踩坑经验与建议
8.1 不要迷信"最新最强"
GLM-5.0参数量比4.7大一倍,但数学基准反而下降。说明参数量不是万能的,要看具体任务需求。
8.2 多模态能力真的很重要
我之前低估了多模态的重要性。当你需要分析UI截图、处理图表、理解代码流程图时,Kimi-K2.5的表现明显更好。
8.3 成本敏感的任务要单独优化
Librarian和Explore这类CHEAP级别的agents,调用频率高但不需要太强能力。用DeepSeek-V3.2后,整体成本下降明显。
8.4 EXPENSIVE agents要用在关键场景
Oracle、Metis这些EXPENSIVE级别的agents,不要为了省钱用弱模型。它们处理的是复杂任务,需要强推理能力。
8.5 测试比理论重要
配置完成后,建议测试几个典型场景:
- 代码搜索(会调用Explore)
- 文档检索(会调用Librarian)
- 视觉分析(会调用Multimodal-looker)
- 复杂架构设计(会调用Oracle或Ultrabrain)
9. 总结
这次配置最大的收获是:没有最好的模型,只有最适合的模型。
- Kimi-K2.5:多模态场景的首选,视觉分析、长文档处理
- MiniMax-M2.5:代码审查和快速修改的神器,性价比极高
- GLM-5.0:复杂规划和orchestration的"大脑",低幻觉率很重要
- DeepSeek-V3.2:深度工作和文档检索的省钱专家
- GLM-4.7:平衡型选手,适合中等复杂度任务
配置完成后,感觉整个系统的效率提升了不少。每个agent都在做自己最擅长的事情,成本也更合理了。
如果你也在用oh-my-opencode,建议根据自己的使用场景调整一下配置。毕竟,找到合适的搭档,工作效率才能翻倍。
注:本文基于2026年3月的模型数据,benchmark和价格可能会有变化,请以最新数据为准。