Featured image of post oh-my-opencode 模型配置再優化 - 新增 Qwen 系列後的重新評估

oh-my-opencode 模型配置再優化 - 新增 Qwen 系列後的重新評估

在原有模型配置基礎上,新增 Qwen 系列模型後重新評估各 Agent 的最佳選型。qwen3-max 以 GPQA 86.1% 和 LiveCodeBench 91.4% 成為深度推理首選,qwen3-coder-next 以 $0.12/M 的極致性價比成為高頻編碼場景的不二之選。

更新說明:這是對之前那篇《為你的 AI Agent 找個好搭檔:oh-my-opencode 模型選擇指南》的重新調整。當時我基於 GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 這 5 個模型做了配置。最近又新增了 4 個 Qwen 系列模型(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus),於是決定重新評估一下每個 Agent 的最佳模型選型。

為什麼需要重新調整?

AI Model Selection

之前那篇文章發布後,我的模型訂閱清單發生了變化:阿里雲百煉新增了 Qwen 系列模型。這 4 個新模型的 benchmark 數據相當亮眼:

  • qwen3-max:GPQA 86.1%(科學推理天花板)、LiveCodeBench 91.4%(編碼推理最強)
  • qwen3-coder-next:SWE-bench 70.6% + $0.12/M(性價比之王)
  • qwen3.5-plus:1M context + 多模態(長文件神器)

這些數據讓我不得不重新審視之前的配置方案。於是,我又做了一番深度調研和 benchmark 數據分析,最終找到了這套新的配置方案。

為什麼需要「按需分配」?

oh-my-opencode 的架構設計很有意思,它把工作流拆分成了多個專門的 Agent:

  • Sisyphus:總指揮,負責編排任務、分配工作
  • Hephaestus:深度工作者,端到端執行任務
  • Oracle:複雜除錯、架構設計顧問
  • Librarian:文件檢索、外部函式庫查詢
  • Explore:程式碼庫搜尋專家
  • Metis:預規劃顧問,識別隱含意圖
  • Momus:計畫審查員
  • Prometheus:策略規劃者
  • Multimodal-looker:圖片/影片分析
  • Atlas:UI 互動的主模型

每個 Agent 的職責不同,對模型能力的需求也不同。就像一個團隊裡,有人擅長設計,有人擅長寫程式,有人擅長寫文件——模型也應該這樣分配。

這次調整了什麼?

相比之前的配置方案,這次的核心變化是:

場景 之前配置 這次調整後 變更理由
深度推理 (Oracle, Prometheus, Ultrabrain) GLM-5 / MiniMax-M2.5 qwen3-max GPQA 86.1% + LiveCodeBench 91.4% 是目前天花板
高頻編碼 (Explore, Quick, Hephaestus) DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 qwen3-coder-next $0.12/M + 151.5 tok/s 極速回應
多模態/長文件 (Librarian, Metis, Atlas) DeepSeek-V3.2 / Kimi-K2.5 qwen3.5-plus 1M context + 原生多模態
總指揮 (Sisyphus) GLM-5 維持 GLM-5 低幻覺編排依然是最重要的
計畫審查 (Momus) MiniMax-M2.5 維持 MiniMax-M2.5 SWE-bench 80.2% 仍是最高分
影片分析 (Multimodal-looker) Kimi-K2.5 維持 Kimi-K2.5 影片理解能力不可替代

簡單來說:推理場景升級到 qwen3-max,編碼場景切換到 qwen3-coder-next,長文件場景用 qwen3.5-plus,保留三個專才不變。

我現在擁有的全部模型一覽

Model Comparison

在開始分配之前,先看看我手邊有哪些「選手」:

模型 Context 多模態 定價 ($/1M in/out) 關鍵能力
GLM-4.7 202K $0.60/$2.20 數學 92%, 編碼 84.9%, 平衡型
GLM-5 202K $1.00/$3.20 低幻覺, Agent SOTA, 複雜推理
DeepSeek-V3.2 262K $0.28/$0.42 極便宜, 數學 94.17%, 深度推理
MiniMax-M2.5 196K $0.30/$1.20 SWE-bench 80.2%, 快速
Kimi-K2.5 262K 多模態最強, 影片理解
qwen3.5-plus 1M $0.12-0.26/$0.29-1.56 1M context, 多模態, 性價比高
qwen3-max 262K $0.96-2.40/$4.80-12.00 GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next 256K $0.12-0.14/$0.30-0.42 SWE-bench 70.6%, 極速回應
qwen3-coder-plus 1M $0.65-1.00/$3.25-5.00 SWE-bench 69.6%, 1M context

關鍵發現:新晉選手的實力

qwen3-max:新晉「推理之王」

這是我這次調研的最大發現:

  • GPQA 86.1% — 科學推理能力目前公開數據中最強
  • LiveCodeBench v6 91.4% — 編碼推理能力天花板
  • Test-time Scaling + 早停檢測 — 能自動判斷何時停止思考,不浪費算力

這意味著什麼?如果你需要深度推理、架構分析、複雜除錯,qwen3-max 是目前最佳選擇。

qwen3-coder-next:性價比之王

  • SWE-bench Verified 70.6% — 接近 MiniMax-M2.5 的 80.2%
  • 輸出速度 151.5 tokens/sec — 同級別排名第 2
  • 回應時間 11.68 秒 — vs MiniMax-M2.5 的 43.03 秒
  • 價格 $0.12/M — 比任何競爭對手都便宜

這意味著什麼?如果你需要高頻調用、快速回應(比如程式碼探索、快速修改),qwen3-coder-next 是不二之選。

qwen3.5-plus:多模態 + 長上下文新選擇

  • 1M context — 目前最大的上下文視窗
  • 原生多模態 — 支援文字、圖片、影片
  • Apache 2.0 開源 — 可自行部署
  • 定價極具競爭力 — $0.12-0.26/M 輸入

這意味著什麼?需要處理長文件、多模態內容的場景(文件檢索、UI 互動、寫作),qwen3.5-plus 是理想選擇。

核心配置策略

經過反覆權衡,我確定了以下配置原則:

1. 總指揮需要低幻覺

Sisyphus → GLM-5

為什麼不用 qwen3-max?因為作為總指揮,可靠性比推理深度更重要。GLM-5 的幻覺率比 GLM-4.7 低 56%,在編排任務時更可靠。

2. 深度推理場景用最強推理

Prometheus, Oracle, Ultrabrain → qwen3-max

這些場景需要深度推理能力:策略規劃、架構諮詢、複雜邏輯分析。qwen3-max 的 GPQA 86.1% 和 LiveCodeBench 91.4% 是目前天花板。

3. 高頻編碼場景用極速模型

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

這些場景調用頻率高、需要快速回應。qwen3-coder-next 的 151.5 tokens/sec 和 $0.12/M 價格讓它成為最佳選擇。

4. 多模態和長上下文用全能選手

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

這些場景需要處理長文件或多模態內容。qwen3.5-plus 的 1M context 和原生多模態支援是關鍵。

5. 特殊場景保留專才

Momus → MiniMax-M2.5(SWE-bench 80.2% 最高分,計畫審查需要編碼準確性)

Multimodal-looker → Kimi-K2.5(影片理解能力,qwen3.5-plus 暫不支援影片)

最終配置方案

Agents 配置

Agent 模型 核心能力 定位
sisyphus GLM-5 低幻覺、Agent SOTA 總指揮(高可靠編排)
prometheus qwen3-max GPQA 86.1%, 深度思考 策略規劃
oracle qwen3-max LiveCodeBench 91.4% 架構諮詢、複雜除錯
metis qwen3.5-plus 1M context, 多模態 意圖分析
momus MiniMax-M2.5 SWE-bench 80.2% 計畫審查
hephaestus qwen3-coder-next 70.6% SWE-bench, 極速 深度工作
librarian qwen3.5-plus 1M context 文件檢索
explore qwen3-coder-next 151.5 tok/s 程式碼探索
atlas qwen3.5-plus 多模態 UI 互動
multimodal-looker Kimi-K2.5 影片理解 圖片/影片分析

Categories 配置

Category 模型 場景
ultrabrain qwen3-max 複雜邏輯任務
unspecified-high qwen3-max 複雜任務
deep qwen3-coder-next 深度自主工作
quick qwen3-coder-next 快速修改
unspecified-low qwen3-coder-next 簡單任務
visual-engineering qwen3.5-plus 前端 UI
artistry qwen3.5-plus 創意任務
writing qwen3.5-plus 長文件寫作

配置程式碼

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

模型分布視覺化

1
2
3
4
5
6
qwen3-coder-next  ████████████ 5 個位置 (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 個位置 (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 個位置 (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 個位置 (sisyphus)
MiniMax-M2.5      ██ 1 個位置 (momus)
Kimi-K2.5         ██ 1 個位置 (multimodal-looker)

一些踩坑經驗

1. 不要迷信「最新最強」

qwen3-max 的 GPQA 86.1% 確實很強,但 GLM-5 的低幻覺特性對於編排場景更重要。根據實際需求選擇,而不是盲目追求 benchmark 最高分。

2. 高頻場景要單獨優化

Explore 和 Quick 這類高頻調用的 Agent,如果用貴的模型會很快燒完配額。qwen3-coder-next 的 $0.12/M 讓我完全沒有這方面的顧慮。

3. 特殊能力要用專才

影片理解目前只有 Kimi-K2.5 支援,計畫審查需要 SWE-bench 最高分的 MiniMax-M2.5。這些特殊場景不能被「通用強模型」替代。

4. 測試比理論重要

配置完成後,建議測試幾個典型場景:

  • 程式碼搜尋(會調用 Explore)
  • 文件檢索(會調用 Librarian)
  • 視覺分析(會調用 Multimodal-looker)
  • 複雜架構設計(會調用 Oracle 或 Ultrabrain)

總結

這次調整是對上一篇配置方案的全面升級。沒有最好的模型,只有最適合的模型——這句話依然成立,但隨著新模型的加入,「最適合」的答案也變了。

場景 最佳模型 核心優勢
總指揮編排 GLM-5 低幻覺、高可靠
深度推理 qwen3-max GPQA 86.1%, LiveCodeBench 91.4%
高頻編碼 qwen3-coder-next $0.12/M, 151.5 tok/s
多模態/長文件 qwen3.5-plus 1M context, 原生多模態
計畫審查 MiniMax-M2.5 SWE-bench 80.2% 最高
影片分析 Kimi-K2.5 影片理解能力

配置完成後,整個系統的效率和效果都有明顯提升。每個 Agent 都在做自己最擅長的事情,配合更加流暢。

如果你也在用 oh-my-opencode,建議根據自己的使用場景和訂閱的模型調整一下配置。畢竟,找到合適的搭檔,工作效率才能翻倍。