Featured image of post oh-my-opencode モデル設定の再最適化 - Qwen シリーズ追加後の再評価

oh-my-opencode モデル設定の再最適化 - Qwen シリーズ追加後の再評価

Qwen シリーズのモデルを新たに追加した後、各エージェントに最適なモデル選択を見直しました。GPQA 86.1% と LiveCodeBench 91.4% を誇る qwen3-max が深い推論の最適解となり、$0.12/M という圧倒的コスパの qwen3-coder-next が高頻度コーディングシーンのベストチョイスです。

更新情報: これは前回の記事「AIエージェントに最適なパートナーを見つける - oh-my-opencodeモデル選択ガイド」のフォローアップです。当時は GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 の 5 つのモデルを基に設定を行いました。最近、Qwen シリーズの 4 つのモデル(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus)を追加したため、各エージェントの最適なモデル選択を再評価することにしました。

なぜ再評価が必要なのか?

AI Model Selection

前回の記事を公開した後、私のモデルサブスクリプションに変更がありました:Alibaba Cloud Bailian に Qwen シリーズのモデルが追加されたのです。この 4 つの新しいモデルのベンチマークデータは非常に印象的です:

  • qwen3-max: GPQA 86.1%(科学推論の最高水準)、LiveCodeBench 91.4%(コーディング推論のトップ)
  • qwen3-coder-next: SWE-bench 70.6% + $0.12/M(コスパの王者)
  • qwen3.5-plus: 1M コンテキスト + マルチモーダル(長文ドキュメントの救世主)

このデータを見て、以前の設定を見直さざるを得なくなりました。詳細な調査とベンチマーク分析を行い、新しい設定案を導き出しました。

なぜ「適材適所」が必要なのか?

oh-my-opencode のアーキテクチャは興味深く、ワークフローを専門的なエージェントに分割しています:

  • Sisyphus: 指揮者、タスクを編成し作業を委任
  • Hephaestus: ディープワーカー、タスクをエンドツーエンドで実行
  • Oracle: 複雑なデバッグ、アーキテクチャコンサルタント
  • Librarian: ドキュメント検索、外部ライブラリ照会
  • Explore: コードベース検索スペシャリスト
  • Metis: 事前計画コンサルタント、暗黙の意図を識別
  • Momus: 計画レビューア
  • Prometheus: 戦略プランナー
  • Multimodal-looker: 画像/動画分析
  • Atlas: UI操作のメインモデル

各エージェントは異なる責任を持ち、モデル能力への要求も異なります。チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです——モデルも同様に割り当てるべきです。

今回何が変わったのか?

以前の設定と比較して、今回の核心的な変更は:

シナリオ 以前の設定 新しい設定 変更理由
深い推論 (Oracle, Prometheus, Ultrabrain) GLM-5 / MiniMax-M2.5 qwen3-max GPQA 86.1% + LiveCodeBench 91.4% が現在の最高水準
高頻度コーディング (Explore, Quick, Hephaestus) DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 qwen3-coder-next $0.12/M + 151.5 tok/s の爆速レスポンス
マルチモーダル/長文 (Librarian, Metis, Atlas) DeepSeek-V3.2 / Kimi-K2.5 qwen3.5-plus 1M コンテキスト + ネイティブマルチモーダル
指揮者 (Sisyphus) GLM-5 GLM-5 を維持 低ハルシネーションが依然として最重要
計画レビュー (Momus) MiniMax-M2.5 MiniMax-M2.5 を維持 SWE-bench 80.2% が依然として最高スコア
動画分析 (Multimodal-looker) Kimi-K2.5 Kimi-K2.5 を維持 動画理解能力は代替不可能

要するに:推論シナリオは qwen3-max にアップグレード、コーディングシナリオは qwen3-coder-next に切り替え、長文シナリオは qwen3.5-plus を使用、3 つの専門家はそのまま維持。

私が持っている全モデル一覧

Model Comparison

割り当てを始める前に、私が持っている「選手」を紹介します:

モデル コンテキスト マルチモーダル 価格 ($/1M in/out) 主な強み
GLM-4.7 202K なし $0.60/$2.20 数学 92%, コーディング 84.9%, バランス型
GLM-5 202K なし $1.00/$3.20 低ハルシネーション, Agent SOTA, 複雑推論
DeepSeek-V3.2 262K なし $0.28/$0.42 超安価, 数学 94.17%, 深い推論
MiniMax-M2.5 196K なし $0.30/$1.20 SWE-bench 80.2%, 高速
Kimi-K2.5 262K あり マルチモーダル最強, 動画理解
qwen3.5-plus 1M あり $0.12-0.26/$0.29-1.56 1M コンテキスト, マルチモーダル, 高コスパ
qwen3-max 262K なし $0.96-2.40/$4.80-12.00 GPQA 86.1%, LiveCodeBench 91.4%
qwen3-coder-next 256K なし $0.12-0.14/$0.30-0.42 SWE-bench 70.6%, 爆速レスポンス
qwen3-coder-plus 1M なし $0.65-1.00/$3.25-5.00 SWE-bench 69.6%, 1M コンテキスト

重要な発見:新加入選手の実力

qwen3-max:新「推論の王者」

今回の調査で最大の発見でした:

  • GPQA 86.1% — 公開データにおける科学推論能力の最高水準
  • LiveCodeBench v6 91.4% — コーディング推論能力のトップ
  • Test-time Scaling + 早期停止検出 — いつ思考を止めるか自動判断、計算資源を無駄にしない

これは何を意味するのか?深い推論、アーキテクチャ分析、複雑なデバッグが必要な場合、qwen3-max が現在ベストな選択です。

qwen3-coder-next:コスパの王者

  • SWE-bench Verified 70.6% — MiniMax-M2.5 の 80.2% に近い
  • 出力速度 151.5 tokens/sec — 同クラスで第 2 位
  • 応答時間 11.68 秒 — MiniMax-M2.5 の 43.03 秒と比較
  • 価格 $0.12/M — どの競合よりも安い

これは何を意味するのか?高頻度の呼び出しと高速レスポンス(コード探索、クイック修正など)が必要な場合、qwen3-coder-next が最適な選択です。

qwen3.5-plus:マルチモーダル + 長文コンテキストの新選択肢

  • 1M コンテキスト — 現在利用可能な最大のコンテキストウィンドウ
  • ネイティブマルチモーダル — テキスト、画像、動画をサポート
  • Apache 2.0 オープンソース — 自己デプロイ可能
  • 競争力のある価格 — $0.12-0.26/M 入力

これは何を意味するのか?長文ドキュメントやマルチモーダルコンテンツの処理(ドキュメント検索、UI操作、ライティング)が必要なシナリオで、qwen3.5-plus が理想的な選択です。

核心となる設定戦略

慎重に検討した結果、以下の設定原則を確立しました:

1. 指揮者には低ハルシネーションが必要

Sisyphus → GLM-5

なぜ qwen3-max を使わないのか?指揮者として、信頼性は推論の深さよりも重要だからです。GLM-5 のハルシネーション率は GLM-4.7 より 56% 低く、タスクの編成においてより信頼性が高いです。

2. 深い推論シナリオには最強の推論を

Prometheus, Oracle, Ultrabrain → qwen3-max

これらのシナリオには深い推論能力が必要です:戦略計画、アーキテクチャコンサルティング、複雑なロジック分析。qwen3-max の GPQA 86.1% と LiveCodeBench 91.4% が現在の最高水準です。

3. 高頻度コーディングシナリオには高速モデルを

Explore, Quick, Deep, Hephaestus → qwen3-coder-next

これらのシナリオは呼び出し頻度が高く、高速なレスポンスが必要です。qwen3-coder-next の 151.5 tokens/sec と $0.12/M の価格がベストな選択です。

4. マルチモーダルと長文コンテキストには万能選手を

Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus

これらのシナリオは長文ドキュメントやマルチモーダルコンテンツの処理が必要です。qwen3.5-plus の 1M コンテキストとネイティブマルチモーダルサポートが重要です。

5. 特殊シナリオには専門家を維持

Momus → MiniMax-M2.5(SWE-bench 80.2% 最高スコア、計画レビューにはコーディングの正確性が必要)

Multimodal-looker → Kimi-K2.5(動画理解能力、qwen3.5-plus はまだ動画をサポートしていない)

最終設定

エージェント設定

エージェント モデル 核心能力 役割
sisyphus GLM-5 低ハルシネーション, Agent SOTA 指揮者(高信頼性の編成)
prometheus qwen3-max GPQA 86.1%, 深い思考 戦略計画
oracle qwen3-max LiveCodeBench 91.4% アーキテクチャコンサルティング, 複雑なデバッグ
metis qwen3.5-plus 1M コンテキスト, マルチモーダル 意図分析
momus MiniMax-M2.5 SWE-bench 80.2% 計画レビュー
hephaestus qwen3-coder-next 70.6% SWE-bench, 高速 ディープワーク
librarian qwen3.5-plus 1M コンテキスト ドキュメント検索
explore qwen3-coder-next 151.5 tok/s コード探索
atlas qwen3.5-plus マルチモーダル UI操作
multimodal-looker Kimi-K2.5 動画理解 画像/動画分析

カテゴリー設定

カテゴリー モデル シナリオ
ultrabrain qwen3-max 複雑なロジックタスク
unspecified-high qwen3-max 複雑なタスク
deep qwen3-coder-next 深い自律的作業
quick qwen3-coder-next クイック修正
unspecified-low qwen3-coder-next 単純なタスク
visual-engineering qwen3.5-plus フロントエンド UI
artistry qwen3.5-plus クリエイティブタスク
writing qwen3.5-plus 長文ライティング

設定コード

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "oracle": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "librarian": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "explore": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "metis": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "sisyphus": {
      "model": "bailian-coding-plan/glm-5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "ultrabrain": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "deep": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "artistry": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    },
    "quick": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-low": {
      "model": "bailian-coding-plan/qwen3-coder-next"
    },
    "unspecified-high": {
      "model": "bailian-coding-plan/qwen3-max-2026-01-23"
    },
    "writing": {
      "model": "bailian-coding-plan/qwen3.5-plus"
    }
  }
}

モデル分布の可視化

1
2
3
4
5
6
qwen3-coder-next  ████████████ 5 ポジション (hephaestus, explore, deep, quick, unspecified-low)
qwen3.5-plus      ██████████████ 6 ポジション (librarian, metis, atlas, visual-engineering, artistry, writing)
qwen3-max         ██████████ 4 ポジション (prometheus, oracle, ultrabrain, unspecified-high)
GLM-5             ██ 1 ポジション (sisyphus)
MiniMax-M2.5      ██ 1 ポジション (momus)
Kimi-K2.5         ██ 1 ポジション (multimodal-looker)

得られた教訓

1. 「最新・最強」を盲信しない

qwen3-max の GPQA 86.1% は確かに強力ですが、GLM-5 の低ハルシネーション特性は編成シナリオにとってより重要です。ベンチマークスコアだけでなく、実際のニーズに基づいて選択すべきです。

2. 高頻度シナリオは個別に最適化

Explore と Quick は高頻度で呼び出されるエージェントです。高価なモデルを使うと、すぐにクォータを使い切ってしまいます。qwen3-coder-next の $0.12/M なら、この心配が完全にありません。

3. 特殊能力には専門家が必要

動画理解は現在 Kimi-K2.5 だけがサポートしており、計画レビューには SWE-bench 最高スコアの MiniMax-M2.5 が必要です。これらの特殊シナリオは「汎用的に強いモデル」で代替できません。

4. テストは理論より重要

設定完了後、以下の典型的なシナリオをテストすることをお勧めします:

  • コード検索(Explore が呼ばれる)
  • ドキュメント検索(Librarian が呼ばれる)
  • 視覚分析(Multimodal-looker が呼ばれる)
  • 複雑なアーキテクチャ設計(Oracle または Ultrabrain が呼ばれる)

まとめ

今回の調整は以前の設定に対する包括的なアップグレードです。最高のモデルなんて存在しません。あるのは最適なモデルだけです——この言葉は依然として真実ですが、新しいモデルが追加されることで「最適」の答えも変わります。

シナリオ 最適なモデル 主な利点
指揮者の編成 GLM-5 低ハルシネーション, 高信頼性
深い推論 qwen3-max GPQA 86.1%, LiveCodeBench 91.4%
高頻度コーディング qwen3-coder-next $0.12/M, 151.5 tok/s
マルチモーダル/長文 qwen3.5-plus 1M コンテキスト, ネイティブマルチモーダル
計画レビュー MiniMax-M2.5 SWE-bench 80.2% 最高
動画分析 Kimi-K2.5 動画理解能力

設定完了後、システム全体の効率と効果が明らかに向上しました。各エージェントが得意なことを行い、連携がよりスムーズになりました。

oh-my-opencode を使用している方は、自分のユースケースと利用可能なモデルに基づいて設定を調整してみてください。適切なパートナーを見つけることが、生産性を倍増させる鍵なのです。