Featured image of post oh-my-opencode 模型配置再优化 - 新加入 Qwen 系列后的重新评估

oh-my-opencode 模型配置再优化 - 新加入 Qwen 系列后的重新评估

在原有模型配置基础上,新增 Qwen 系列模型后重新评估各 Agent 的最佳选型。qwen3-max 凭借 GPQA 86.1% 和 LiveCodeBench 91.4% 成为深度推理首选,qwen3-coder-next 以 $0.12/M 的极致性价比成为高频编码场景的不二之选。

更新说明:这是对之前那篇《给你的AI Agent找个好搭档:oh-my-opencode模型选择指南》的重新调整。当时我基于 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 这 5 个模型做了配置。最近又新增了 4 个 Qwen 系列模型(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus),于是决定重新评估一下每个 Agent 的最佳模型选型。

为什么需要重新调整?

AI Model Selection

之前那篇文章发布后,我的模型订阅列表发生了变化:阿里云百炼新增了 Qwen 系列模型。这 4 个新模型的 benchmark 数据相当亮眼:

  • qwen3-max:GPQA 86.1%(科学推理天花板)、LiveCodeBench 91.4%(编码推理最强)
  • qwen3-coder-next:SWE-bench 70.6% + $0.12/M(性价比之王)
  • qwen3.5-plus:1M context + 多模态(长文档神器)

这些数据让我不得不重新审视之前的配置方案。于是,我又做了一番深度调研和 benchmark 数据分析,最终找到了这套新的配置方案。

为什么需要「按需分配」?

oh-my-opencode 的架构设计很有意思,它把工作流拆分成了多个专门的 Agent:

  • Sisyphus:总指挥,负责编排任务、委托工作
  • Hephaestus:深度工作者,端到端执行任务
  • Oracle:复杂调试、架构设计顾问
  • Librarian:文档检索、外部库查询
  • Explore:代码库搜索专家
  • Metis:预规划顾问,识别隐含意图
  • Momus:计划审查员
  • Prometheus:战略规划者
  • Multimodal-looker:图像/视频分析
  • Atlas:UI 交互的主模型

每个 Agent 的职责不同,对模型能力的需求也不同。就像一个团队里,有人擅长设计,有人擅长代码,有人擅长文档——模型也应该这样分配。

这次调整了什么?

相比之前的配置方案,这次的核心变化是:

场景 之前配置 这次调整后 变更理由
深度推理 (Oracle, Prometheus, Ultrabrain) GLM-5 / MiniMax-M2.5 qwen3-max GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板
高频编码 (Explore, Quick, Hephaestus) DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 qwen3-coder-next $0.12/M + 151.5 tok/s 极速响应
多模态/长文档 (Librarian, Metis, Atlas) DeepSeek-V3.2 / Kimi-K2.5 qwen3.5-plus 1M context + 原生多模态
总指挥 (Sisyphus) GLM-5 保持 GLM-5 低幻觉编排依然是最重要的
计划审查 (Momus) MiniMax-M2.5 保持 MiniMax-M2.5 SWE-bench 80.2% 仍是最高分
视频分析 (Multimodal-looker) Kimi-K2.5 保持 Kimi-K2.5 视频理解能力不可替代

简单来说:推理场景升级到 qwen3-max,编码场景切换到 qwen3-coder-next,长文档场景用 qwen3.5-plus,保留三个专才不变。

我现在拥有的全部模型一览

Model Comparison

在开始分配之前,先看看我手头有哪些「选手」:

模型 Context 多模态 定价 ($/1M in/out) 关键能力
GLM-4.7 202K $0.60/$2.20 数学 92%, 编码 84.9%, 平衡型
GLM-5 202K $1.00/$3.20 低幻觉, Agent SOTA, 复杂推理
DeepSeek-V3.2 262K $0.28/$0.42 极便宜, 数学 94.17%, 深度推理
MiniMax-M2.5 196K $0.30/$1.20 SWE-bench 80.2%, 快速
Kimi-K2.5 262K 多模态最强, 视频理解
qwen3.5-plus 1M $0.12-0.26/$0.29-1.56 1M context, 多模态, 性价比高
qwen3-max 262K $0.96-2.40/$4.80-12.00 GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next 256K $0.12-0.14/$0.30-0.42 SWE-bench 70.6%, 极速响应
qwen3-coder-plus 1M $0.65-1.00/$3.25-5.00 SWE-bench 69.6%, 1M context

关键发现:新晋选手的实力

qwen3-max:新晋「推理之王」

这是我这次调研的最大发现:

  • GPQA 86.1% — 科学推理能力目前公开数据中最强
  • LiveCodeBench v6 91.4% — 编码推理能力天花板
  • Test-time Scaling + 早停检测 — 能自动判断何时停止思考,不浪费算力

这意味着什么?如果你需要深度推理、架构分析、复杂调试,qwen3-max 是目前最佳选择。

qwen3-coder-next:性价比之王

  • SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
  • 输出速度 151.5 tokens/sec — 同级别排名第 2
  • 响应时间 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
  • 价格 $0.12/M — 比任何竞争对手都便宜

这意味着什么?如果你需要高频调用、快速响应(比如代码探索、快速修改),qwen3-coder-next 是不二之选。

qwen3.5-plus:多模态 + 长上下文新选择

  • 1M context — 目前最大的上下文窗口
  • 原生多模态 — 支持文本、图像、视频
  • Apache 2.0 开源 — 可自部署
  • 定价极具竞争力 — $0.12-0.26/M 输入

这意味着什么?需要处理长文档、多模态内容的场景(文档检索、UI 交互、写作),qwen3.5-plus 是理想选择。

核心配置策略

经过反复权衡,我确定了以下配置原则:

1. 总指挥需要低幻觉

Sisyphus → GLM-5

为什么不用 qwen3-max?因为作为总指挥,可靠性比推理深度更重要。GLM-5 的幻觉率比 GLM-4.7 低 56%,在编排任务时更可靠。

2. 深度推理场景用最强推理

Prometheus, Oracle, Ultrabrain → qwen3-max

这些场景需要深度推理能力:战略规划、架构咨询、复杂逻辑分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。

3. 高频编码场景用极速模型

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

这些场景调用频率高、需要快速响应。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 价格让它成为最佳选择。

4. 多模态和长上下文用全能选手

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

这些场景需要处理长文档或多模态内容。qwen3.5-plus 的 1M context 和原生多模态支持是关键。

5. 特殊场景保留专才

Momus → MiniMax-M2.5(SWE-bench 80.2% 最高分,计划审查需要编码准确性)

Multimodal-looker → Kimi-K2.5(视频理解能力,qwen3.5-plus 暂不支持视频)

最终配置方案

Agents 配置

Agent 模型 核心能力 定位
sisyphus GLM-5 低幻觉、Agent SOTA 总指挥(高可靠编排)
prometheus qwen3-max GPQA 86.1%, 深度思考 战略规划
oracle qwen3-max LiveCodeBench 91.4% 架构咨询、复杂调试
metis qwen3.5-plus 1M context, 多模态 意图分析
momus MiniMax-M2.5 SWE-bench 80.2% 计划审查
hephaestus qwen3-coder-next 70.6% SWE-bench, 极速 深度工作
librarian qwen3.5-plus 1M context 文档检索
explore qwen3-coder-next 151.5 tok/s 代码探索
atlas qwen3.5-plus 多模态 UI 交互
multimodal-looker Kimi-K2.5 视频理解 图像/视频分析

Categories 配置

Category 模型 场景
ultrabrain qwen3-max 复杂逻辑任务
unspecified-high qwen3-max 复杂任务
deep qwen3-coder-next 深度自主工作
quick qwen3-coder-next 快速修改
unspecified-low qwen3-coder-next 简单任务
visual-engineering qwen3.5-plus 前端 UI
artistry qwen3.5-plus 创意任务
writing qwen3.5-plus 长文档写作

配置代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

模型分布可视化

1
2
3
4
5
6
qwen3-coder-next  ████████████ 5 个位置 (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 个位置 (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 个位置 (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 个位置 (sisyphus)
MiniMax-M2.5      ██ 1 个位置 (momus)
Kimi-K2.5         ██ 1 个位置 (multimodal-looker)

一些踩坑经验

1. 不要迷信「最新最强」

qwen3-max 的 GPQA 86.1% 确实很强,但 GLM-5 的低幻觉特性对于编排场景更重要。根据实际需求选择,而不是盲目追求 benchmark 最高分。

2. 高频场景要单独优化

Explore 和 Quick 这类高频调用的 Agent,如果用贵的模型会很快烧完配额。qwen3-coder-next 的 $0.12/M 让我完全没有这方面的顾虑。

3. 特殊能力要用专才

视频理解目前只有 Kimi-K2.5 支持,计划审查需要 SWE-bench 最高分的 MiniMax-M2.5。这些特殊场景不能被「通用强模型」替代。

4. 测试比理论重要

配置完成后,建议测试几个典型场景:

  • 代码搜索(会调用 Explore)
  • 文档检索(会调用 Librarian)
  • 视觉分析(会调用 Multimodal-looker)
  • 复杂架构设计(会调用 Oracle 或 Ultrabrain)

总结

这次调整是对上一篇配置方案的全面升级。没有最好的模型,只有最适合的模型——这句话依然成立,但随着新模型的加入,「最适合」的答案也变了。

场景 最佳模型 核心优势
总指挥编排 GLM-5 低幻觉、高可靠
深度推理 qwen3-max GPQA 86.1%, LiveCodeBench 91.4%
高频编码 qwen3-coder-next $0.12/M, 151.5 tok/s
多模态/长文档 qwen3.5-plus 1M context, 原生多模态
计划审查 MiniMax-M2.5 SWE-bench 80.2% 最高
视频分析 Kimi-K2.5 视频理解能力

配置完成后,整个系统的效率和效果都有明显提升。每个 Agent 都在做自己最擅长的事情,配合更加流畅。

如果你也在用 oh-my-opencode,建议根据自己的使用场景和订阅的模型调整一下配置。毕竟,找到合适的搭档,工作效率才能翻倍。