更新说明:这是对之前那篇《给你的AI Agent找个好搭档:oh-my-opencode模型选择指南》的重新调整。当时我基于 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 这 5 个模型做了配置。最近又新增了 4 个 Qwen 系列模型(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus),于是决定重新评估一下每个 Agent 的最佳模型选型。
为什么需要重新调整?

之前那篇文章发布后,我的模型订阅列表发生了变化:阿里云百炼新增了 Qwen 系列模型。这 4 个新模型的 benchmark 数据相当亮眼:
- qwen3-max:GPQA 86.1%(科学推理天花板)、LiveCodeBench 91.4%(编码推理最强)
- qwen3-coder-next:SWE-bench 70.6% + $0.12/M(性价比之王)
- qwen3.5-plus:1M context + 多模态(长文档神器)
这些数据让我不得不重新审视之前的配置方案。于是,我又做了一番深度调研和 benchmark 数据分析,最终找到了这套新的配置方案。
为什么需要「按需分配」?
oh-my-opencode 的架构设计很有意思,它把工作流拆分成了多个专门的 Agent:
- Sisyphus:总指挥,负责编排任务、委托工作
- Hephaestus:深度工作者,端到端执行任务
- Oracle:复杂调试、架构设计顾问
- Librarian:文档检索、外部库查询
- Explore:代码库搜索专家
- Metis:预规划顾问,识别隐含意图
- Momus:计划审查员
- Prometheus:战略规划者
- Multimodal-looker:图像/视频分析
- Atlas:UI 交互的主模型
每个 Agent 的职责不同,对模型能力的需求也不同。就像一个团队里,有人擅长设计,有人擅长代码,有人擅长文档——模型也应该这样分配。
这次调整了什么?
相比之前的配置方案,这次的核心变化是:
| 场景 | 之前配置 | 这次调整后 | 变更理由 |
|---|---|---|---|
| 深度推理 (Oracle, Prometheus, Ultrabrain) | GLM-5 / MiniMax-M2.5 | qwen3-max | GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板 |
| 高频编码 (Explore, Quick, Hephaestus) | DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 | qwen3-coder-next | $0.12/M + 151.5 tok/s 极速响应 |
| 多模态/长文档 (Librarian, Metis, Atlas) | DeepSeek-V3.2 / Kimi-K2.5 | qwen3.5-plus | 1M context + 原生多模态 |
| 总指挥 (Sisyphus) | GLM-5 | 保持 GLM-5 | 低幻觉编排依然是最重要的 |
| 计划审查 (Momus) | MiniMax-M2.5 | 保持 MiniMax-M2.5 | SWE-bench 80.2% 仍是最高分 |
| 视频分析 (Multimodal-looker) | Kimi-K2.5 | 保持 Kimi-K2.5 | 视频理解能力不可替代 |
简单来说:推理场景升级到 qwen3-max,编码场景切换到 qwen3-coder-next,长文档场景用 qwen3.5-plus,保留三个专才不变。
我现在拥有的全部模型一览

在开始分配之前,先看看我手头有哪些「选手」:
| 模型 | Context | 多模态 | 定价 ($/1M in/out) | 关键能力 |
|---|---|---|---|---|
| GLM-4.7 | 202K | 否 | $0.60/$2.20 | 数学 92%, 编码 84.9%, 平衡型 |
| GLM-5 | 202K | 否 | $1.00/$3.20 | 低幻觉, Agent SOTA, 复杂推理 |
| DeepSeek-V3.2 | 262K | 否 | $0.28/$0.42 | 极便宜, 数学 94.17%, 深度推理 |
| MiniMax-M2.5 | 196K | 否 | $0.30/$1.20 | SWE-bench 80.2%, 快速 |
| Kimi-K2.5 | 262K | 是 | — | 多模态最强, 视频理解 |
| qwen3.5-plus | 1M | 是 | $0.12-0.26/$0.29-1.56 | 1M context, 多模态, 性价比高 |
| qwen3-max | 262K | 否 | $0.96-2.40/$4.80-12.00 | GPQA 86.1%, LiveCodeBench 91.4% |
| qwen3-coder-next | 256K | 否 | $0.12-0.14/$0.30-0.42 | SWE-bench 70.6%, 极速响应 |
| qwen3-coder-plus | 1M | 否 | $0.65-1.00/$3.25-5.00 | SWE-bench 69.6%, 1M context |
关键发现:新晋选手的实力
qwen3-max:新晋「推理之王」
这是我这次调研的最大发现:
- GPQA 86.1% — 科学推理能力目前公开数据中最强
- LiveCodeBench v6 91.4% — 编码推理能力天花板
- Test-time Scaling + 早停检测 — 能自动判断何时停止思考,不浪费算力
这意味着什么?如果你需要深度推理、架构分析、复杂调试,qwen3-max 是目前最佳选择。
qwen3-coder-next:性价比之王
- SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
- 输出速度 151.5 tokens/sec — 同级别排名第 2
- 响应时间 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
- 价格 $0.12/M — 比任何竞争对手都便宜
这意味着什么?如果你需要高频调用、快速响应(比如代码探索、快速修改),qwen3-coder-next 是不二之选。
qwen3.5-plus:多模态 + 长上下文新选择
- 1M context — 目前最大的上下文窗口
- 原生多模态 — 支持文本、图像、视频
- Apache 2.0 开源 — 可自部署
- 定价极具竞争力 — $0.12-0.26/M 输入
这意味着什么?需要处理长文档、多模态内容的场景(文档检索、UI 交互、写作),qwen3.5-plus 是理想选择。
核心配置策略
经过反复权衡,我确定了以下配置原则:
1. 总指挥需要低幻觉
Sisyphus → GLM-5
为什么不用 qwen3-max?因为作为总指挥,可靠性比推理深度更重要。GLM-5 的幻觉率比 GLM-4.7 低 56%,在编排任务时更可靠。
2. 深度推理场景用最强推理
Prometheus, Oracle, Ultrabrain → qwen3-max
这些场景需要深度推理能力:战略规划、架构咨询、复杂逻辑分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。
3. 高频编码场景用极速模型
Explore, Quick, Deep, Hephaestus → qwen3-coder-next
这些场景调用频率高、需要快速响应。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 价格让它成为最佳选择。
4. 多模态和长上下文用全能选手
Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus
这些场景需要处理长文档或多模态内容。qwen3.5-plus 的 1M context 和原生多模态支持是关键。
5. 特殊场景保留专才
Momus → MiniMax-M2.5(SWE-bench 80.2% 最高分,计划审查需要编码准确性)
Multimodal-looker → Kimi-K2.5(视频理解能力,qwen3.5-plus 暂不支持视频)
最终配置方案
Agents 配置
| Agent | 模型 | 核心能力 | 定位 |
|---|---|---|---|
| sisyphus | GLM-5 | 低幻觉、Agent SOTA | 总指挥(高可靠编排) |
| prometheus | qwen3-max | GPQA 86.1%, 深度思考 | 战略规划 |
| oracle | qwen3-max | LiveCodeBench 91.4% | 架构咨询、复杂调试 |
| metis | qwen3.5-plus | 1M context, 多模态 | 意图分析 |
| momus | MiniMax-M2.5 | SWE-bench 80.2% | 计划审查 |
| hephaestus | qwen3-coder-next | 70.6% SWE-bench, 极速 | 深度工作 |
| librarian | qwen3.5-plus | 1M context | 文档检索 |
| explore | qwen3-coder-next | 151.5 tok/s | 代码探索 |
| atlas | qwen3.5-plus | 多模态 | UI 交互 |
| multimodal-looker | Kimi-K2.5 | 视频理解 | 图像/视频分析 |
Categories 配置
| Category | 模型 | 场景 |
|---|---|---|
| ultrabrain | qwen3-max | 复杂逻辑任务 |
| unspecified-high | qwen3-max | 复杂任务 |
| deep | qwen3-coder-next | 深度自主工作 |
| quick | qwen3-coder-next | 快速修改 |
| unspecified-low | qwen3-coder-next | 简单任务 |
| visual-engineering | qwen3.5-plus | 前端 UI |
| artistry | qwen3.5-plus | 创意任务 |
| writing | qwen3.5-plus | 长文档写作 |
配置代码
|
|
模型分布可视化
|
|
一些踩坑经验
1. 不要迷信「最新最强」
qwen3-max 的 GPQA 86.1% 确实很强,但 GLM-5 的低幻觉特性对于编排场景更重要。根据实际需求选择,而不是盲目追求 benchmark 最高分。
2. 高频场景要单独优化
Explore 和 Quick 这类高频调用的 Agent,如果用贵的模型会很快烧完配额。qwen3-coder-next 的 $0.12/M 让我完全没有这方面的顾虑。
3. 特殊能力要用专才
视频理解目前只有 Kimi-K2.5 支持,计划审查需要 SWE-bench 最高分的 MiniMax-M2.5。这些特殊场景不能被「通用强模型」替代。
4. 测试比理论重要
配置完成后,建议测试几个典型场景:
- 代码搜索(会调用 Explore)
- 文档检索(会调用 Librarian)
- 视觉分析(会调用 Multimodal-looker)
- 复杂架构设计(会调用 Oracle 或 Ultrabrain)
总结
这次调整是对上一篇配置方案的全面升级。没有最好的模型,只有最适合的模型——这句话依然成立,但随着新模型的加入,「最适合」的答案也变了。
| 场景 | 最佳模型 | 核心优势 |
|---|---|---|
| 总指挥编排 | GLM-5 | 低幻觉、高可靠 |
| 深度推理 | qwen3-max | GPQA 86.1%, LiveCodeBench 91.4% |
| 高频编码 | qwen3-coder-next | $0.12/M, 151.5 tok/s |
| 多模态/长文档 | qwen3.5-plus | 1M context, 原生多模态 |
| 计划审查 | MiniMax-M2.5 | SWE-bench 80.2% 最高 |
| 视频分析 | Kimi-K2.5 | 视频理解能力 |
配置完成后,整个系统的效率和效果都有明显提升。每个 Agent 都在做自己最擅长的事情,配合更加流畅。
如果你也在用 oh-my-opencode,建议根据自己的使用场景和订阅的模型调整一下配置。毕竟,找到合适的搭档,工作效率才能翻倍。