oh-my-opencode 模型配置再优化 - 新加入 Qwen 系列后的重新评估

更新说明：这是对之前那篇《给你的AI Agent找个好搭档：oh-my-opencode模型选择指南》的重新调整。当时我基于 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 这 5 个模型做了配置。最近又新增了 4 个 Qwen 系列模型（qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus），于是决定重新评估一下每个 Agent 的最佳模型选型。

为什么需要重新调整？

AI Model Selection

之前那篇文章发布后，我的模型订阅列表发生了变化：阿里云百炼新增了 Qwen 系列模型。这 4 个新模型的 benchmark 数据相当亮眼：

qwen3-max：GPQA 86.1%（科学推理天花板）、LiveCodeBench 91.4%（编码推理最强）
qwen3-coder-next：SWE-bench 70.6% + $0.12/M（性价比之王）
qwen3.5-plus：1M context + 多模态（长文档神器）

这些数据让我不得不重新审视之前的配置方案。于是，我又做了一番深度调研和 benchmark 数据分析，最终找到了这套新的配置方案。

为什么需要「按需分配」？

oh-my-opencode 的架构设计很有意思，它把工作流拆分成了多个专门的 Agent：

Sisyphus：总指挥，负责编排任务、委托工作
Hephaestus：深度工作者，端到端执行任务
Oracle：复杂调试、架构设计顾问
Librarian：文档检索、外部库查询
Explore：代码库搜索专家
Metis：预规划顾问，识别隐含意图
Momus：计划审查员
Prometheus：战略规划者
Multimodal-looker：图像/视频分析
Atlas：UI 交互的主模型

每个 Agent 的职责不同，对模型能力的需求也不同。就像一个团队里，有人擅长设计，有人擅长代码，有人擅长文档——模型也应该这样分配。

这次调整了什么？

相比之前的配置方案，这次的核心变化是：

场景	之前配置	这次调整后	变更理由
深度推理 (Oracle, Prometheus, Ultrabrain)	GLM-5 / MiniMax-M2.5	qwen3-max	GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板
高频编码 (Explore, Quick, Hephaestus)	DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5	qwen3-coder-next	$0.12/M + 151.5 tok/s 极速响应
多模态/长文档 (Librarian, Metis, Atlas)	DeepSeek-V3.2 / Kimi-K2.5	qwen3.5-plus	1M context + 原生多模态
总指挥 (Sisyphus)	GLM-5	保持 GLM-5	低幻觉编排依然是最重要的
计划审查 (Momus)	MiniMax-M2.5	保持 MiniMax-M2.5	SWE-bench 80.2% 仍是最高分
视频分析 (Multimodal-looker)	Kimi-K2.5	保持 Kimi-K2.5	视频理解能力不可替代

简单来说：推理场景升级到 qwen3-max，编码场景切换到 qwen3-coder-next，长文档场景用 qwen3.5-plus，保留三个专才不变。

我现在拥有的全部模型一览

Model Comparison

在开始分配之前，先看看我手头有哪些「选手」：

模型	Context	多模态	定价 ($/1M in/out)	关键能力
GLM-4.7	202K	否	$0.60/$2.20	数学 92%, 编码 84.9%, 平衡型
GLM-5	202K	否	$1.00/$3.20	低幻觉, Agent SOTA, 复杂推理
DeepSeek-V3.2	262K	否	$0.28/$0.42	极便宜, 数学 94.17%, 深度推理
MiniMax-M2.5	196K	否	$0.30/$1.20	SWE-bench 80.2%, 快速
Kimi-K2.5	262K	是	—	多模态最强, 视频理解
qwen3.5-plus	1M	是	$0.12-0.26/$0.29-1.56	1M context, 多模态, 性价比高
qwen3-max	262K	否	$0.96-2.40/$4.80-12.00	GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next	256K	否	$0.12-0.14/$0.30-0.42	SWE-bench 70.6%, 极速响应
qwen3-coder-plus	1M	否	$0.65-1.00/$3.25-5.00	SWE-bench 69.6%, 1M context

关键发现：新晋选手的实力

qwen3-max：新晋「推理之王」

这是我这次调研的最大发现：

GPQA 86.1% — 科学推理能力目前公开数据中最强
LiveCodeBench v6 91.4% — 编码推理能力天花板
Test-time Scaling + 早停检测 — 能自动判断何时停止思考，不浪费算力

这意味着什么？如果你需要深度推理、架构分析、复杂调试，qwen3-max 是目前最佳选择。

qwen3-coder-next：性价比之王

SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
输出速度 151.5 tokens/sec — 同级别排名第 2
响应时间 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
价格 $0.12/M — 比任何竞争对手都便宜

这意味着什么？如果你需要高频调用、快速响应（比如代码探索、快速修改），qwen3-coder-next 是不二之选。

qwen3.5-plus：多模态 + 长上下文新选择

1M context — 目前最大的上下文窗口
原生多模态 — 支持文本、图像、视频
Apache 2.0 开源 — 可自部署
定价极具竞争力 — $0.12-0.26/M 输入

这意味着什么？需要处理长文档、多模态内容的场景（文档检索、UI 交互、写作），qwen3.5-plus 是理想选择。

核心配置策略

经过反复权衡，我确定了以下配置原则：

1. 总指挥需要低幻觉

Sisyphus → GLM-5

为什么不用 qwen3-max？因为作为总指挥，可靠性比推理深度更重要。GLM-5 的幻觉率比 GLM-4.7 低 56%，在编排任务时更可靠。

2. 深度推理场景用最强推理

Prometheus, Oracle, Ultrabrain → qwen3-max

这些场景需要深度推理能力：战略规划、架构咨询、复杂逻辑分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。

3. 高频编码场景用极速模型

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

这些场景调用频率高、需要快速响应。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 价格让它成为最佳选择。

4. 多模态和长上下文用全能选手

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

这些场景需要处理长文档或多模态内容。qwen3.5-plus 的 1M context 和原生多模态支持是关键。

5. 特殊场景保留专才

Momus → MiniMax-M2.5（SWE-bench 80.2% 最高分，计划审查需要编码准确性）

Multimodal-looker → Kimi-K2.5（视频理解能力，qwen3.5-plus 暂不支持视频）

最终配置方案

Agents 配置

Agent	模型	核心能力	定位
sisyphus	GLM-5	低幻觉、Agent SOTA	总指挥（高可靠编排）
prometheus	qwen3-max	GPQA 86.1%, 深度思考	战略规划
oracle	qwen3-max	LiveCodeBench 91.4%	架构咨询、复杂调试
metis	qwen3.5-plus	1M context, 多模态	意图分析
momus	MiniMax-M2.5	SWE-bench 80.2%	计划审查
hephaestus	qwen3-coder-next	70.6% SWE-bench, 极速	深度工作
librarian	qwen3.5-plus	1M context	文档检索
explore	qwen3-coder-next	151.5 tok/s	代码探索
atlas	qwen3.5-plus	多模态	UI 交互
multimodal-looker	Kimi-K2.5	视频理解	图像/视频分析

Categories 配置

Category	模型	场景
ultrabrain	qwen3-max	复杂逻辑任务
unspecified-high	qwen3-max	复杂任务
deep	qwen3-coder-next	深度自主工作
quick	qwen3-coder-next	快速修改
unspecified-low	qwen3-coder-next	简单任务
visual-engineering	qwen3.5-plus	前端 UI
artistry	qwen3.5-plus	创意任务
writing	qwen3.5-plus	长文档写作

配置代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

模型分布可视化

1
2
3
4
5
6


qwen3-coder-next  ████████████ 5 个位置 (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 个位置 (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 个位置 (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 个位置 (sisyphus)
MiniMax-M2.5      ██ 1 个位置 (momus)
Kimi-K2.5         ██ 1 个位置 (multimodal-looker)

一些踩坑经验

1. 不要迷信「最新最强」

qwen3-max 的 GPQA 86.1% 确实很强，但 GLM-5 的低幻觉特性对于编排场景更重要。根据实际需求选择，而不是盲目追求 benchmark 最高分。

2. 高频场景要单独优化

Explore 和 Quick 这类高频调用的 Agent，如果用贵的模型会很快烧完配额。qwen3-coder-next 的 $0.12/M 让我完全没有这方面的顾虑。

3. 特殊能力要用专才

视频理解目前只有 Kimi-K2.5 支持，计划审查需要 SWE-bench 最高分的 MiniMax-M2.5。这些特殊场景不能被「通用强模型」替代。

4. 测试比理论重要

配置完成后，建议测试几个典型场景：

代码搜索（会调用 Explore）
文档检索（会调用 Librarian）
视觉分析（会调用 Multimodal-looker）
复杂架构设计（会调用 Oracle 或 Ultrabrain）

总结

这次调整是对上一篇配置方案的全面升级。没有最好的模型，只有最适合的模型——这句话依然成立，但随着新模型的加入，「最适合」的答案也变了。

场景	最佳模型	核心优势
总指挥编排	GLM-5	低幻觉、高可靠
深度推理	qwen3-max	GPQA 86.1%, LiveCodeBench 91.4%
高频编码	qwen3-coder-next	$0.12/M, 151.5 tok/s
多模态/长文档	qwen3.5-plus	1M context, 原生多模态
计划审查	MiniMax-M2.5	SWE-bench 80.2% 最高
视频分析	Kimi-K2.5	视频理解能力

配置完成后，整个系统的效率和效果都有明显提升。每个 Agent 都在做自己最擅长的事情，配合更加流畅。

如果你也在用 oh-my-opencode，建议根据自己的使用场景和订阅的模型调整一下配置。毕竟，找到合适的搭档，工作效率才能翻倍。