更新說明:這是對之前那篇《為你的 AI Agent 找個好搭檔:oh-my-opencode 模型選擇指南》的重新調整。當時我基於 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 這 5 個模型做了配置。最近又新增了 4 個 Qwen 系列模型(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus),於是決定重新評估一下每個 Agent 的最佳模型選型。
為什麼需要重新調整?

之前那篇文章發布後,我的模型訂閱清單發生了變化:阿里雲百煉新增了 Qwen 系列模型。這 4 個新模型的 benchmark 數據相當亮眼:
- qwen3-max:GPQA 86.1%(科學推理天花板)、LiveCodeBench 91.4%(編碼推理最強)
- qwen3-coder-next:SWE-bench 70.6% + $0.12/M(性價比之王)
- qwen3.5-plus:1M context + 多模態(長文件神器)
這些數據讓我不得不重新審視之前的配置方案。於是,我又做了一番深度調研和 benchmark 數據分析,最終找到了這套新的配置方案。
為什麼需要「按需分配」?
oh-my-opencode 的架構設計很有意思,它把工作流拆分成了多個專門的 Agent:
- Sisyphus:總指揮,負責編排任務、分配工作
- Hephaestus:深度工作者,端到端執行任務
- Oracle:複雜除錯、架構設計顧問
- Librarian:文件檢索、外部函式庫查詢
- Explore:程式碼庫搜尋專家
- Metis:預規劃顧問,識別隱含意圖
- Momus:計畫審查員
- Prometheus:策略規劃者
- Multimodal-looker:圖片/影片分析
- Atlas:UI 互動的主模型
每個 Agent 的職責不同,對模型能力的需求也不同。就像一個團隊裡,有人擅長設計,有人擅長寫程式,有人擅長寫文件——模型也應該這樣分配。
這次調整了什麼?
相比之前的配置方案,這次的核心變化是:
| 場景 | 之前配置 | 這次調整後 | 變更理由 |
|---|---|---|---|
| 深度推理 (Oracle, Prometheus, Ultrabrain) | GLM-5 / MiniMax-M2.5 | qwen3-max | GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板 |
| 高頻編碼 (Explore, Quick, Hephaestus) | DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 | qwen3-coder-next | $0.12/M + 151.5 tok/s 極速回應 |
| 多模態/長文件 (Librarian, Metis, Atlas) | DeepSeek-V3.2 / Kimi-K2.5 | qwen3.5-plus | 1M context + 原生多模態 |
| 總指揮 (Sisyphus) | GLM-5 | 維持 GLM-5 | 低幻覺編排依然是最重要的 |
| 計畫審查 (Momus) | MiniMax-M2.5 | 維持 MiniMax-M2.5 | SWE-bench 80.2% 仍是最高分 |
| 影片分析 (Multimodal-looker) | Kimi-K2.5 | 維持 Kimi-K2.5 | 影片理解能力不可替代 |
簡單來說:推理場景升級到 qwen3-max,編碼場景切換到 qwen3-coder-next,長文件場景用 qwen3.5-plus,保留三個專才不變。
我現在擁有的全部模型一覽

在開始分配之前,先看看我手邊有哪些「選手」:
| 模型 | Context | 多模態 | 定價 ($/1M in/out) | 關鍵能力 |
|---|---|---|---|---|
| GLM-4.7 | 202K | 否 | $0.60/$2.20 | 數學 92%, 編碼 84.9%, 平衡型 |
| GLM-5 | 202K | 否 | $1.00/$3.20 | 低幻覺, Agent SOTA, 複雜推理 |
| DeepSeek-V3.2 | 262K | 否 | $0.28/$0.42 | 極便宜, 數學 94.17%, 深度推理 |
| MiniMax-M2.5 | 196K | 否 | $0.30/$1.20 | SWE-bench 80.2%, 快速 |
| Kimi-K2.5 | 262K | 是 | — | 多模態最強, 影片理解 |
| qwen3.5-plus | 1M | 是 | $0.12-0.26/$0.29-1.56 | 1M context, 多模態, 性價比高 |
| qwen3-max | 262K | 否 | $0.96-2.40/$4.80-12.00 | GPQA 86.1%, LiveCodeBench 91.4% |
| qwen3-coder-next | 256K | 否 | $0.12-0.14/$0.30-0.42 | SWE-bench 70.6%, 極速回應 |
| qwen3-coder-plus | 1M | 否 | $0.65-1.00/$3.25-5.00 | SWE-bench 69.6%, 1M context |
關鍵發現:新晉選手的實力
qwen3-max:新晉「推理之王」
這是我這次調研的最大發現:
- GPQA 86.1% — 科學推理能力目前公開數據中最強
- LiveCodeBench v6 91.4% — 編碼推理能力天花板
- Test-time Scaling + 早停檢測 — 能自動判斷何時停止思考,不浪費算力
這意味著什麼?如果你需要深度推理、架構分析、複雜除錯,qwen3-max 是目前最佳選擇。
qwen3-coder-next:性價比之王
- SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
- 輸出速度 151.5 tokens/sec — 同級別排名第 2
- 回應時間 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
- 價格 $0.12/M — 比任何競爭對手都便宜
這意味著什麼?如果你需要高頻調用、快速回應(比如程式碼探索、快速修改),qwen3-coder-next 是不二之選。
qwen3.5-plus:多模態 + 長上下文新選擇
- 1M context — 目前最大的上下文視窗
- 原生多模態 — 支援文字、圖片、影片
- Apache 2.0 開源 — 可自行部署
- 定價極具競爭力 — $0.12-0.26/M 輸入
這意味著什麼?需要處理長文件、多模態內容的場景(文件檢索、UI 互動、寫作),qwen3.5-plus 是理想選擇。
核心配置策略
經過反覆權衡,我確定了以下配置原則:
1. 總指揮需要低幻覺
Sisyphus → GLM-5
為什麼不用 qwen3-max?因為作為總指揮,可靠性比推理深度更重要。GLM-5 的幻覺率比 GLM-4.7 低 56%,在編排任務時更可靠。
2. 深度推理場景用最強推理
Prometheus, Oracle, Ultrabrain → qwen3-max
這些場景需要深度推理能力:策略規劃、架構諮詢、複雜邏輯分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。
3. 高頻編碼場景用極速模型
Explore, Quick, Deep, Hephaestus → qwen3-coder-next
這些場景調用頻率高、需要快速回應。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 價格讓它成為最佳選擇。
4. 多模態和長上下文用全能選手
Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus
這些場景需要處理長文件或多模態內容。qwen3.5-plus 的 1M context 和原生多模態支援是關鍵。
5. 特殊場景保留專才
Momus → MiniMax-M2.5(SWE-bench 80.2% 最高分,計畫審查需要編碼準確性)
Multimodal-looker → Kimi-K2.5(影片理解能力,qwen3.5-plus 暫不支援影片)
最終配置方案
Agents 配置
| Agent | 模型 | 核心能力 | 定位 |
|---|---|---|---|
| sisyphus | GLM-5 | 低幻覺、Agent SOTA | 總指揮(高可靠編排) |
| prometheus | qwen3-max | GPQA 86.1%, 深度思考 | 策略規劃 |
| oracle | qwen3-max | LiveCodeBench 91.4% | 架構諮詢、複雜除錯 |
| metis | qwen3.5-plus | 1M context, 多模態 | 意圖分析 |
| momus | MiniMax-M2.5 | SWE-bench 80.2% | 計畫審查 |
| hephaestus | qwen3-coder-next | 70.6% SWE-bench, 極速 | 深度工作 |
| librarian | qwen3.5-plus | 1M context | 文件檢索 |
| explore | qwen3-coder-next | 151.5 tok/s | 程式碼探索 |
| atlas | qwen3.5-plus | 多模態 | UI 互動 |
| multimodal-looker | Kimi-K2.5 | 影片理解 | 圖片/影片分析 |
Categories 配置
| Category | 模型 | 場景 |
|---|---|---|
| ultrabrain | qwen3-max | 複雜邏輯任務 |
| unspecified-high | qwen3-max | 複雜任務 |
| deep | qwen3-coder-next | 深度自主工作 |
| quick | qwen3-coder-next | 快速修改 |
| unspecified-low | qwen3-coder-next | 簡單任務 |
| visual-engineering | qwen3.5-plus | 前端 UI |
| artistry | qwen3.5-plus | 創意任務 |
| writing | qwen3.5-plus | 長文件寫作 |
配置程式碼
|
|
模型分布視覺化
|
|
一些踩坑經驗
1. 不要迷信「最新最強」
qwen3-max 的 GPQA 86.1% 確實很強,但 GLM-5 的低幻覺特性對於編排場景更重要。根據實際需求選擇,而不是盲目追求 benchmark 最高分。
2. 高頻場景要單獨優化
Explore 和 Quick 這類高頻調用的 Agent,如果用貴的模型會很快燒完配額。qwen3-coder-next 的 $0.12/M 讓我完全沒有這方面的顧慮。
3. 特殊能力要用專才
影片理解目前只有 Kimi-K2.5 支援,計畫審查需要 SWE-bench 最高分的 MiniMax-M2.5。這些特殊場景不能被「通用強模型」替代。
4. 測試比理論重要
配置完成後,建議測試幾個典型場景:
- 程式碼搜尋(會調用 Explore)
- 文件檢索(會調用 Librarian)
- 視覺分析(會調用 Multimodal-looker)
- 複雜架構設計(會調用 Oracle 或 Ultrabrain)
總結
這次調整是對上一篇配置方案的全面升級。沒有最好的模型,只有最適合的模型——這句話依然成立,但隨著新模型的加入,「最適合」的答案也變了。
| 場景 | 最佳模型 | 核心優勢 |
|---|---|---|
| 總指揮編排 | GLM-5 | 低幻覺、高可靠 |
| 深度推理 | qwen3-max | GPQA 86.1%, LiveCodeBench 91.4% |
| 高頻編碼 | qwen3-coder-next | $0.12/M, 151.5 tok/s |
| 多模態/長文件 | qwen3.5-plus | 1M context, 原生多模態 |
| 計畫審查 | MiniMax-M2.5 | SWE-bench 80.2% 最高 |
| 影片分析 | Kimi-K2.5 | 影片理解能力 |
配置完成後,整個系統的效率和效果都有明顯提升。每個 Agent 都在做自己最擅長的事情,配合更加流暢。
如果你也在用 oh-my-opencode,建議根據自己的使用場景和訂閱的模型調整一下配置。畢竟,找到合適的搭檔,工作效率才能翻倍。