oh-my-opencode 模型配置再優化 - 新增 Qwen 系列後的重新評估

更新說明：這是對之前那篇《為你的 AI Agent 找個好搭檔：oh-my-opencode 模型選擇指南》的重新調整。當時我基於 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 這 5 個模型做了配置。最近又新增了 4 個 Qwen 系列模型（qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus），於是決定重新評估一下每個 Agent 的最佳模型選型。

為什麼需要重新調整？

AI Model Selection

之前那篇文章發布後，我的模型訂閱清單發生了變化：阿里雲百煉新增了 Qwen 系列模型。這 4 個新模型的 benchmark 數據相當亮眼：

qwen3-max：GPQA 86.1%（科學推理天花板）、LiveCodeBench 91.4%（編碼推理最強）
qwen3-coder-next：SWE-bench 70.6% + $0.12/M（性價比之王）
qwen3.5-plus：1M context + 多模態（長文件神器）

這些數據讓我不得不重新審視之前的配置方案。於是，我又做了一番深度調研和 benchmark 數據分析，最終找到了這套新的配置方案。

為什麼需要「按需分配」？

oh-my-opencode 的架構設計很有意思，它把工作流拆分成了多個專門的 Agent：

Sisyphus：總指揮，負責編排任務、分配工作
Hephaestus：深度工作者，端到端執行任務
Oracle：複雜除錯、架構設計顧問
Librarian：文件檢索、外部函式庫查詢
Explore：程式碼庫搜尋專家
Metis：預規劃顧問，識別隱含意圖
Momus：計畫審查員
Prometheus：策略規劃者
Multimodal-looker：圖片/影片分析
Atlas：UI 互動的主模型

每個 Agent 的職責不同，對模型能力的需求也不同。就像一個團隊裡，有人擅長設計，有人擅長寫程式，有人擅長寫文件——模型也應該這樣分配。

這次調整了什麼？

相比之前的配置方案，這次的核心變化是：

場景	之前配置	這次調整後	變更理由
深度推理 (Oracle, Prometheus, Ultrabrain)	GLM-5 / MiniMax-M2.5	qwen3-max	GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板
高頻編碼 (Explore, Quick, Hephaestus)	DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5	qwen3-coder-next	$0.12/M + 151.5 tok/s 極速回應
多模態/長文件 (Librarian, Metis, Atlas)	DeepSeek-V3.2 / Kimi-K2.5	qwen3.5-plus	1M context + 原生多模態
總指揮 (Sisyphus)	GLM-5	維持 GLM-5	低幻覺編排依然是最重要的
計畫審查 (Momus)	MiniMax-M2.5	維持 MiniMax-M2.5	SWE-bench 80.2% 仍是最高分
影片分析 (Multimodal-looker)	Kimi-K2.5	維持 Kimi-K2.5	影片理解能力不可替代

簡單來說：推理場景升級到 qwen3-max，編碼場景切換到 qwen3-coder-next，長文件場景用 qwen3.5-plus，保留三個專才不變。

我現在擁有的全部模型一覽

Model Comparison

在開始分配之前，先看看我手邊有哪些「選手」：

模型	Context	多模態	定價 ($/1M in/out)	關鍵能力
GLM-4.7	202K	否	$0.60/$2.20	數學 92%, 編碼 84.9%, 平衡型
GLM-5	202K	否	$1.00/$3.20	低幻覺, Agent SOTA, 複雜推理
DeepSeek-V3.2	262K	否	$0.28/$0.42	極便宜, 數學 94.17%, 深度推理
MiniMax-M2.5	196K	否	$0.30/$1.20	SWE-bench 80.2%, 快速
Kimi-K2.5	262K	是	—	多模態最強, 影片理解
qwen3.5-plus	1M	是	$0.12-0.26/$0.29-1.56	1M context, 多模態, 性價比高
qwen3-max	262K	否	$0.96-2.40/$4.80-12.00	GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next	256K	否	$0.12-0.14/$0.30-0.42	SWE-bench 70.6%, 極速回應
qwen3-coder-plus	1M	否	$0.65-1.00/$3.25-5.00	SWE-bench 69.6%, 1M context

關鍵發現：新晉選手的實力

qwen3-max：新晉「推理之王」

這是我這次調研的最大發現：

GPQA 86.1% — 科學推理能力目前公開數據中最強
LiveCodeBench v6 91.4% — 編碼推理能力天花板
Test-time Scaling + 早停檢測 — 能自動判斷何時停止思考，不浪費算力

這意味著什麼？如果你需要深度推理、架構分析、複雜除錯，qwen3-max 是目前最佳選擇。

qwen3-coder-next：性價比之王

SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
輸出速度 151.5 tokens/sec — 同級別排名第 2
回應時間 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
價格 $0.12/M — 比任何競爭對手都便宜

這意味著什麼？如果你需要高頻調用、快速回應（比如程式碼探索、快速修改），qwen3-coder-next 是不二之選。

qwen3.5-plus：多模態 + 長上下文新選擇

1M context — 目前最大的上下文視窗
原生多模態 — 支援文字、圖片、影片
Apache 2.0 開源 — 可自行部署
定價極具競爭力 — $0.12-0.26/M 輸入

這意味著什麼？需要處理長文件、多模態內容的場景（文件檢索、UI 互動、寫作），qwen3.5-plus 是理想選擇。

核心配置策略

經過反覆權衡，我確定了以下配置原則：

1. 總指揮需要低幻覺

Sisyphus → GLM-5

為什麼不用 qwen3-max？因為作為總指揮，可靠性比推理深度更重要。GLM-5 的幻覺率比 GLM-4.7 低 56%，在編排任務時更可靠。

2. 深度推理場景用最強推理

Prometheus, Oracle, Ultrabrain → qwen3-max

這些場景需要深度推理能力：策略規劃、架構諮詢、複雜邏輯分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。

3. 高頻編碼場景用極速模型

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

這些場景調用頻率高、需要快速回應。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 價格讓它成為最佳選擇。

4. 多模態和長上下文用全能選手

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

這些場景需要處理長文件或多模態內容。qwen3.5-plus 的 1M context 和原生多模態支援是關鍵。

5. 特殊場景保留專才

Momus → MiniMax-M2.5（SWE-bench 80.2% 最高分，計畫審查需要編碼準確性）

Multimodal-looker → Kimi-K2.5（影片理解能力，qwen3.5-plus 暫不支援影片）

最終配置方案

Agents 配置

Agent	模型	核心能力	定位
sisyphus	GLM-5	低幻覺、Agent SOTA	總指揮（高可靠編排）
prometheus	qwen3-max	GPQA 86.1%, 深度思考	策略規劃
oracle	qwen3-max	LiveCodeBench 91.4%	架構諮詢、複雜除錯
metis	qwen3.5-plus	1M context, 多模態	意圖分析
momus	MiniMax-M2.5	SWE-bench 80.2%	計畫審查
hephaestus	qwen3-coder-next	70.6% SWE-bench, 極速	深度工作
librarian	qwen3.5-plus	1M context	文件檢索
explore	qwen3-coder-next	151.5 tok/s	程式碼探索
atlas	qwen3.5-plus	多模態	UI 互動
multimodal-looker	Kimi-K2.5	影片理解	圖片/影片分析

Categories 配置

Category	模型	場景
ultrabrain	qwen3-max	複雜邏輯任務
unspecified-high	qwen3-max	複雜任務
deep	qwen3-coder-next	深度自主工作
quick	qwen3-coder-next	快速修改
unspecified-low	qwen3-coder-next	簡單任務
visual-engineering	qwen3.5-plus	前端 UI
artistry	qwen3.5-plus	創意任務
writing	qwen3.5-plus	長文件寫作

配置程式碼

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

模型分布視覺化

1
2
3
4
5
6


qwen3-coder-next  ████████████ 5 個位置 (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 個位置 (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 個位置 (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 個位置 (sisyphus)
MiniMax-M2.5      ██ 1 個位置 (momus)
Kimi-K2.5         ██ 1 個位置 (multimodal-looker)

一些踩坑經驗

1. 不要迷信「最新最強」

qwen3-max 的 GPQA 86.1% 確實很強，但 GLM-5 的低幻覺特性對於編排場景更重要。根據實際需求選擇，而不是盲目追求 benchmark 最高分。

2. 高頻場景要單獨優化

Explore 和 Quick 這類高頻調用的 Agent，如果用貴的模型會很快燒完配額。qwen3-coder-next 的 $0.12/M 讓我完全沒有這方面的顧慮。

3. 特殊能力要用專才

影片理解目前只有 Kimi-K2.5 支援，計畫審查需要 SWE-bench 最高分的 MiniMax-M2.5。這些特殊場景不能被「通用強模型」替代。

4. 測試比理論重要

配置完成後，建議測試幾個典型場景：

程式碼搜尋（會調用 Explore）
文件檢索（會調用 Librarian）
視覺分析（會調用 Multimodal-looker）
複雜架構設計（會調用 Oracle 或 Ultrabrain）

總結

這次調整是對上一篇配置方案的全面升級。沒有最好的模型，只有最適合的模型——這句話依然成立，但隨著新模型的加入，「最適合」的答案也變了。

場景	最佳模型	核心優勢
總指揮編排	GLM-5	低幻覺、高可靠
深度推理	qwen3-max	GPQA 86.1%, LiveCodeBench 91.4%
高頻編碼	qwen3-coder-next	$0.12/M, 151.5 tok/s
多模態/長文件	qwen3.5-plus	1M context, 原生多模態
計畫審查	MiniMax-M2.5	SWE-bench 80.2% 最高
影片分析	Kimi-K2.5	影片理解能力

配置完成後，整個系統的效率和效果都有明顯提升。每個 Agent 都在做自己最擅長的事情，配合更加流暢。

如果你也在用 oh-my-opencode，建議根據自己的使用場景和訂閱的模型調整一下配置。畢竟，找到合適的搭檔，工作效率才能翻倍。