oh-my-opencode モデル設定の再最適化 - Qwen シリーズ追加後の再評価

更新情報: これは前回の記事「AIエージェントに最適なパートナーを見つける - oh-my-opencodeモデル選択ガイド」のフォローアップです。当時は GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 の 5 つのモデルを基に設定を行いました。最近、Qwen シリーズの 4 つのモデル（qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus）を追加したため、各エージェントの最適なモデル選択を再評価することにしました。

なぜ再評価が必要なのか？

AI Model Selection

前回の記事を公開した後、私のモデルサブスクリプションに変更がありました：Alibaba Cloud Bailian に Qwen シリーズのモデルが追加されたのです。この 4 つの新しいモデルのベンチマークデータは非常に印象的です：

qwen3-max: GPQA 86.1%（科学推論の最高水準）、LiveCodeBench 91.4%（コーディング推論のトップ）
qwen3-coder-next: SWE-bench 70.6% + $0.12/M（コスパの王者）
qwen3.5-plus: 1M コンテキスト + マルチモーダル（長文ドキュメントの救世主）

このデータを見て、以前の設定を見直さざるを得なくなりました。詳細な調査とベンチマーク分析を行い、新しい設定案を導き出しました。

なぜ「適材適所」が必要なのか？

oh-my-opencode のアーキテクチャは興味深く、ワークフローを専門的なエージェントに分割しています：

Sisyphus: 指揮者、タスクを編成し作業を委任
Hephaestus: ディープワーカー、タスクをエンドツーエンドで実行
Oracle: 複雑なデバッグ、アーキテクチャコンサルタント
Librarian: ドキュメント検索、外部ライブラリ照会
Explore: コードベース検索スペシャリスト
Metis: 事前計画コンサルタント、暗黙の意図を識別
Momus: 計画レビューア
Prometheus: 戦略プランナー
Multimodal-looker: 画像/動画分析
Atlas: UI操作のメインモデル

各エージェントは異なる責任を持ち、モデル能力への要求も異なります。チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです——モデルも同様に割り当てるべきです。

今回何が変わったのか？

以前の設定と比較して、今回の核心的な変更は：

シナリオ	以前の設定	新しい設定	変更理由
深い推論 (Oracle, Prometheus, Ultrabrain)	GLM-5 / MiniMax-M2.5	qwen3-max	GPQA 86.1% + LiveCodeBench 91.4% が現在の最高水準
高頻度コーディング (Explore, Quick, Hephaestus)	DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5	qwen3-coder-next	$0.12/M + 151.5 tok/s の爆速レスポンス
マルチモーダル/長文 (Librarian, Metis, Atlas)	DeepSeek-V3.2 / Kimi-K2.5	qwen3.5-plus	1M コンテキスト + ネイティブマルチモーダル
指揮者 (Sisyphus)	GLM-5	GLM-5 を維持	低ハルシネーションが依然として最重要
計画レビュー (Momus)	MiniMax-M2.5	MiniMax-M2.5 を維持	SWE-bench 80.2% が依然として最高スコア
動画分析 (Multimodal-looker)	Kimi-K2.5	Kimi-K2.5 を維持	動画理解能力は代替不可能

要するに：推論シナリオは qwen3-max にアップグレード、コーディングシナリオは qwen3-coder-next に切り替え、長文シナリオは qwen3.5-plus を使用、3 つの専門家はそのまま維持。

私が持っている全モデル一覧

Model Comparison

割り当てを始める前に、私が持っている「選手」を紹介します：

モデル	コンテキスト	マルチモーダル	価格 ($/1M in/out)	主な強み
GLM-4.7	202K	なし	$0.60/$2.20	数学 92%, コーディング 84.9%, バランス型
GLM-5	202K	なし	$1.00/$3.20	低ハルシネーション, Agent SOTA, 複雑推論
DeepSeek-V3.2	262K	なし	$0.28/$0.42	超安価, 数学 94.17%, 深い推論
MiniMax-M2.5	196K	なし	$0.30/$1.20	SWE-bench 80.2%, 高速
Kimi-K2.5	262K	あり	—	マルチモーダル最強, 動画理解
qwen3.5-plus	1M	あり	$0.12-0.26/$0.29-1.56	1M コンテキスト, マルチモーダル, 高コスパ
qwen3-max	262K	なし	$0.96-2.40/$4.80-12.00	GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next	256K	なし	$0.12-0.14/$0.30-0.42	SWE-bench 70.6%, 爆速レスポンス
qwen3-coder-plus	1M	なし	$0.65-1.00/$3.25-5.00	SWE-bench 69.6%, 1M コンテキスト

重要な発見：新加入選手の実力

qwen3-max：新「推論の王者」

今回の調査で最大の発見でした：

GPQA 86.1% — 公開データにおける科学推論能力の最高水準
LiveCodeBench v6 91.4% — コーディング推論能力のトップ
Test-time Scaling + 早期停止検出 — いつ思考を止めるか自動判断、計算資源を無駄にしない

これは何を意味するのか？深い推論、アーキテクチャ分析、複雑なデバッグが必要な場合、qwen3-max が現在ベストな選択です。

qwen3-coder-next：コスパの王者

SWE-bench Verified 70.6% — MiniMax-M2.5 の 80.2% に近い
出力速度 151.5 tokens/sec — 同クラスで第 2 位
応答時間 11.68 秒 — MiniMax-M2.5 の 43.03 秒と比較
価格 $0.12/M — どの競合よりも安い

これは何を意味するのか？高頻度の呼び出しと高速レスポンス（コード探索、クイック修正など）が必要な場合、qwen3-coder-next が最適な選択です。

qwen3.5-plus：マルチモーダル + 長文コンテキストの新選択肢

1M コンテキスト — 現在利用可能な最大のコンテキストウィンドウ
ネイティブマルチモーダル — テキスト、画像、動画をサポート
Apache 2.0 オープンソース — 自己デプロイ可能
競争力のある価格 — $0.12-0.26/M 入力

これは何を意味するのか？長文ドキュメントやマルチモーダルコンテンツの処理（ドキュメント検索、UI操作、ライティング）が必要なシナリオで、qwen3.5-plus が理想的な選択です。

核心となる設定戦略

慎重に検討した結果、以下の設定原則を確立しました：

1. 指揮者には低ハルシネーションが必要

Sisyphus → GLM-5

なぜ qwen3-max を使わないのか？指揮者として、信頼性は推論の深さよりも重要だからです。GLM-5 のハルシネーション率は GLM-4.7 より 56% 低く、タスクの編成においてより信頼性が高いです。

2. 深い推論シナリオには最強の推論を

Prometheus, Oracle, Ultrabrain → qwen3-max

これらのシナリオには深い推論能力が必要です：戦略計画、アーキテクチャコンサルティング、複雑なロジック分析。qwen3-max の GPQA 86.1% と LiveCodeBench 91.4% が現在の最高水準です。

3. 高頻度コーディングシナリオには高速モデルを

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

これらのシナリオは呼び出し頻度が高く、高速なレスポンスが必要です。qwen3-coder-next の 151.5 tokens/sec と $0.12/M の価格がベストな選択です。

4. マルチモーダルと長文コンテキストには万能選手を

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

これらのシナリオは長文ドキュメントやマルチモーダルコンテンツの処理が必要です。qwen3.5-plus の 1M コンテキストとネイティブマルチモーダルサポートが重要です。

5. 特殊シナリオには専門家を維持

Momus → MiniMax-M2.5（SWE-bench 80.2% 最高スコア、計画レビューにはコーディングの正確性が必要）

Multimodal-looker → Kimi-K2.5（動画理解能力、qwen3.5-plus はまだ動画をサポートしていない）

最終設定

エージェント設定

エージェント	モデル	核心能力	役割
sisyphus	GLM-5	低ハルシネーション, Agent SOTA	指揮者（高信頼性の編成）
prometheus	qwen3-max	GPQA 86.1%, 深い思考	戦略計画
oracle	qwen3-max	LiveCodeBench 91.4%	アーキテクチャコンサルティング, 複雑なデバッグ
metis	qwen3.5-plus	1M コンテキスト, マルチモーダル	意図分析
momus	MiniMax-M2.5	SWE-bench 80.2%	計画レビュー
hephaestus	qwen3-coder-next	70.6% SWE-bench, 高速	ディープワーク
librarian	qwen3.5-plus	1M コンテキスト	ドキュメント検索
explore	qwen3-coder-next	151.5 tok/s	コード探索
atlas	qwen3.5-plus	マルチモーダル	UI操作
multimodal-looker	Kimi-K2.5	動画理解	画像/動画分析

カテゴリー設定

カテゴリー	モデル	シナリオ
ultrabrain	qwen3-max	複雑なロジックタスク
unspecified-high	qwen3-max	複雑なタスク
deep	qwen3-coder-next	深い自律的作業
quick	qwen3-coder-next	クイック修正
unspecified-low	qwen3-coder-next	単純なタスク
visual-engineering	qwen3.5-plus	フロントエンド UI
artistry	qwen3.5-plus	クリエイティブタスク
writing	qwen3.5-plus	長文ライティング

設定コード

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

モデル分布の可視化

1
2
3
4
5
6


qwen3-coder-next  ████████████ 5 ポジション (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 ポジション (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 ポジション (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 ポジション (sisyphus)
MiniMax-M2.5      ██ 1 ポジション (momus)
Kimi-K2.5         ██ 1 ポジション (multimodal-looker)

得られた教訓

1. 「最新・最強」を盲信しない

qwen3-max の GPQA 86.1% は確かに強力ですが、GLM-5 の低ハルシネーション特性は編成シナリオにとってより重要です。ベンチマークスコアだけでなく、実際のニーズに基づいて選択すべきです。

2. 高頻度シナリオは個別に最適化

Explore と Quick は高頻度で呼び出されるエージェントです。高価なモデルを使うと、すぐにクォータを使い切ってしまいます。qwen3-coder-next の $0.12/M なら、この心配が完全にありません。

3. 特殊能力には専門家が必要

動画理解は現在 Kimi-K2.5 だけがサポートしており、計画レビューには SWE-bench 最高スコアの MiniMax-M2.5 が必要です。これらの特殊シナリオは「汎用的に強いモデル」で代替できません。

4. テストは理論より重要

設定完了後、以下の典型的なシナリオをテストすることをお勧めします：

コード検索（Explore が呼ばれる）
ドキュメント検索（Librarian が呼ばれる）
視覚分析（Multimodal-looker が呼ばれる）
複雑なアーキテクチャ設計（Oracle または Ultrabrain が呼ばれる）

まとめ

今回の調整は以前の設定に対する包括的なアップグレードです。最高のモデルなんて存在しません。あるのは最適なモデルだけです——この言葉は依然として真実ですが、新しいモデルが追加されることで「最適」の答えも変わります。

シナリオ	最適なモデル	主な利点
指揮者の編成	GLM-5	低ハルシネーション, 高信頼性
深い推論	qwen3-max	GPQA 86.1%, LiveCodeBench 91.4%
高頻度コーディング	qwen3-coder-next	$0.12/M, 151.5 tok/s
マルチモーダル/長文	qwen3.5-plus	1M コンテキスト, ネイティブマルチモーダル
計画レビュー	MiniMax-M2.5	SWE-bench 80.2% 最高
動画分析	Kimi-K2.5	動画理解能力

設定完了後、システム全体の効率と効果が明らかに向上しました。各エージェントが得意なことを行い、連携がよりスムーズになりました。

oh-my-opencode を使用している方は、自分のユースケースと利用可能なモデルに基づいて設定を調整してみてください。適切なパートナーを見つけることが、生産性を倍増させる鍵なのです。