更新情報: これは前回の記事「AIエージェントに最適なパートナーを見つける - oh-my-opencodeモデル選択ガイド」のフォローアップです。当時は GLM-4.7、GLM-5、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5 の 5 つのモデルを基に設定を行いました。最近、Qwen シリーズの 4 つのモデル(qwen3.5-plus、qwen3-max、qwen3-coder-next、qwen3-coder-plus)を追加したため、各エージェントの最適なモデル選択を再評価することにしました。
なぜ再評価が必要なのか?

前回の記事を公開した後、私のモデルサブスクリプションに変更がありました:Alibaba Cloud Bailian に Qwen シリーズのモデルが追加されたのです。この 4 つの新しいモデルのベンチマークデータは非常に印象的です:
- qwen3-max: GPQA 86.1%(科学推論の最高水準)、LiveCodeBench 91.4%(コーディング推論のトップ)
- qwen3-coder-next: SWE-bench 70.6% + $0.12/M(コスパの王者)
- qwen3.5-plus: 1M コンテキスト + マルチモーダル(長文ドキュメントの救世主)
このデータを見て、以前の設定を見直さざるを得なくなりました。詳細な調査とベンチマーク分析を行い、新しい設定案を導き出しました。
なぜ「適材適所」が必要なのか?
oh-my-opencode のアーキテクチャは興味深く、ワークフローを専門的なエージェントに分割しています:
- Sisyphus: 指揮者、タスクを編成し作業を委任
- Hephaestus: ディープワーカー、タスクをエンドツーエンドで実行
- Oracle: 複雑なデバッグ、アーキテクチャコンサルタント
- Librarian: ドキュメント検索、外部ライブラリ照会
- Explore: コードベース検索スペシャリスト
- Metis: 事前計画コンサルタント、暗黙の意図を識別
- Momus: 計画レビューア
- Prometheus: 戦略プランナー
- Multimodal-looker: 画像/動画分析
- Atlas: UI操作のメインモデル
各エージェントは異なる責任を持ち、モデル能力への要求も異なります。チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです——モデルも同様に割り当てるべきです。
今回何が変わったのか?
以前の設定と比較して、今回の核心的な変更は:
| シナリオ | 以前の設定 | 新しい設定 | 変更理由 |
|---|---|---|---|
| 深い推論 (Oracle, Prometheus, Ultrabrain) | GLM-5 / MiniMax-M2.5 | qwen3-max | GPQA 86.1% + LiveCodeBench 91.4% が現在の最高水準 |
| 高頻度コーディング (Explore, Quick, Hephaestus) | DeepSeek-V3.2 / GLM-4.7 / MiniMax-M2.5 | qwen3-coder-next | $0.12/M + 151.5 tok/s の爆速レスポンス |
| マルチモーダル/長文 (Librarian, Metis, Atlas) | DeepSeek-V3.2 / Kimi-K2.5 | qwen3.5-plus | 1M コンテキスト + ネイティブマルチモーダル |
| 指揮者 (Sisyphus) | GLM-5 | GLM-5 を維持 | 低ハルシネーションが依然として最重要 |
| 計画レビュー (Momus) | MiniMax-M2.5 | MiniMax-M2.5 を維持 | SWE-bench 80.2% が依然として最高スコア |
| 動画分析 (Multimodal-looker) | Kimi-K2.5 | Kimi-K2.5 を維持 | 動画理解能力は代替不可能 |
要するに:推論シナリオは qwen3-max にアップグレード、コーディングシナリオは qwen3-coder-next に切り替え、長文シナリオは qwen3.5-plus を使用、3 つの専門家はそのまま維持。
私が持っている全モデル一覧

割り当てを始める前に、私が持っている「選手」を紹介します:
| モデル | コンテキスト | マルチモーダル | 価格 ($/1M in/out) | 主な強み |
|---|---|---|---|---|
| GLM-4.7 | 202K | なし | $0.60/$2.20 | 数学 92%, コーディング 84.9%, バランス型 |
| GLM-5 | 202K | なし | $1.00/$3.20 | 低ハルシネーション, Agent SOTA, 複雑推論 |
| DeepSeek-V3.2 | 262K | なし | $0.28/$0.42 | 超安価, 数学 94.17%, 深い推論 |
| MiniMax-M2.5 | 196K | なし | $0.30/$1.20 | SWE-bench 80.2%, 高速 |
| Kimi-K2.5 | 262K | あり | — | マルチモーダル最強, 動画理解 |
| qwen3.5-plus | 1M | あり | $0.12-0.26/$0.29-1.56 | 1M コンテキスト, マルチモーダル, 高コスパ |
| qwen3-max | 262K | なし | $0.96-2.40/$4.80-12.00 | GPQA 86.1%, LiveCodeBench 91.4% |
| qwen3-coder-next | 256K | なし | $0.12-0.14/$0.30-0.42 | SWE-bench 70.6%, 爆速レスポンス |
| qwen3-coder-plus | 1M | なし | $0.65-1.00/$3.25-5.00 | SWE-bench 69.6%, 1M コンテキスト |
重要な発見:新加入選手の実力
qwen3-max:新「推論の王者」
今回の調査で最大の発見でした:
- GPQA 86.1% — 公開データにおける科学推論能力の最高水準
- LiveCodeBench v6 91.4% — コーディング推論能力のトップ
- Test-time Scaling + 早期停止検出 — いつ思考を止めるか自動判断、計算資源を無駄にしない
これは何を意味するのか?深い推論、アーキテクチャ分析、複雑なデバッグが必要な場合、qwen3-max が現在ベストな選択です。
qwen3-coder-next:コスパの王者
- SWE-bench Verified 70.6% — MiniMax-M2.5 の 80.2% に近い
- 出力速度 151.5 tokens/sec — 同クラスで第 2 位
- 応答時間 11.68 秒 — MiniMax-M2.5 の 43.03 秒と比較
- 価格 $0.12/M — どの競合よりも安い
これは何を意味するのか?高頻度の呼び出しと高速レスポンス(コード探索、クイック修正など)が必要な場合、qwen3-coder-next が最適な選択です。
qwen3.5-plus:マルチモーダル + 長文コンテキストの新選択肢
- 1M コンテキスト — 現在利用可能な最大のコンテキストウィンドウ
- ネイティブマルチモーダル — テキスト、画像、動画をサポート
- Apache 2.0 オープンソース — 自己デプロイ可能
- 競争力のある価格 — $0.12-0.26/M 入力
これは何を意味するのか?長文ドキュメントやマルチモーダルコンテンツの処理(ドキュメント検索、UI操作、ライティング)が必要なシナリオで、qwen3.5-plus が理想的な選択です。
核心となる設定戦略
慎重に検討した結果、以下の設定原則を確立しました:
1. 指揮者には低ハルシネーションが必要
Sisyphus → GLM-5
なぜ qwen3-max を使わないのか?指揮者として、信頼性は推論の深さよりも重要だからです。GLM-5 のハルシネーション率は GLM-4.7 より 56% 低く、タスクの編成においてより信頼性が高いです。
2. 深い推論シナリオには最強の推論を
Prometheus, Oracle, Ultrabrain → qwen3-max
これらのシナリオには深い推論能力が必要です:戦略計画、アーキテクチャコンサルティング、複雑なロジック分析。qwen3-max の GPQA 86.1% と LiveCodeBench 91.4% が現在の最高水準です。
3. 高頻度コーディングシナリオには高速モデルを
Explore, Quick, Deep, Hephaestus → qwen3-coder-next
これらのシナリオは呼び出し頻度が高く、高速なレスポンスが必要です。qwen3-coder-next の 151.5 tokens/sec と $0.12/M の価格がベストな選択です。
4. マルチモーダルと長文コンテキストには万能選手を
Librarian, Metis, Atlas, Visual-engineering, Artistry, Writing → qwen3.5-plus
これらのシナリオは長文ドキュメントやマルチモーダルコンテンツの処理が必要です。qwen3.5-plus の 1M コンテキストとネイティブマルチモーダルサポートが重要です。
5. 特殊シナリオには専門家を維持
Momus → MiniMax-M2.5(SWE-bench 80.2% 最高スコア、計画レビューにはコーディングの正確性が必要)
Multimodal-looker → Kimi-K2.5(動画理解能力、qwen3.5-plus はまだ動画をサポートしていない)
最終設定
エージェント設定
| エージェント | モデル | 核心能力 | 役割 |
|---|---|---|---|
| sisyphus | GLM-5 | 低ハルシネーション, Agent SOTA | 指揮者(高信頼性の編成) |
| prometheus | qwen3-max | GPQA 86.1%, 深い思考 | 戦略計画 |
| oracle | qwen3-max | LiveCodeBench 91.4% | アーキテクチャコンサルティング, 複雑なデバッグ |
| metis | qwen3.5-plus | 1M コンテキスト, マルチモーダル | 意図分析 |
| momus | MiniMax-M2.5 | SWE-bench 80.2% | 計画レビュー |
| hephaestus | qwen3-coder-next | 70.6% SWE-bench, 高速 | ディープワーク |
| librarian | qwen3.5-plus | 1M コンテキスト | ドキュメント検索 |
| explore | qwen3-coder-next | 151.5 tok/s | コード探索 |
| atlas | qwen3.5-plus | マルチモーダル | UI操作 |
| multimodal-looker | Kimi-K2.5 | 動画理解 | 画像/動画分析 |
カテゴリー設定
| カテゴリー | モデル | シナリオ |
|---|---|---|
| ultrabrain | qwen3-max | 複雑なロジックタスク |
| unspecified-high | qwen3-max | 複雑なタスク |
| deep | qwen3-coder-next | 深い自律的作業 |
| quick | qwen3-coder-next | クイック修正 |
| unspecified-low | qwen3-coder-next | 単純なタスク |
| visual-engineering | qwen3.5-plus | フロントエンド UI |
| artistry | qwen3.5-plus | クリエイティブタスク |
| writing | qwen3.5-plus | 長文ライティング |
設定コード
|
|
モデル分布の可視化
|
|
得られた教訓
1. 「最新・最強」を盲信しない
qwen3-max の GPQA 86.1% は確かに強力ですが、GLM-5 の低ハルシネーション特性は編成シナリオにとってより重要です。ベンチマークスコアだけでなく、実際のニーズに基づいて選択すべきです。
2. 高頻度シナリオは個別に最適化
Explore と Quick は高頻度で呼び出されるエージェントです。高価なモデルを使うと、すぐにクォータを使い切ってしまいます。qwen3-coder-next の $0.12/M なら、この心配が完全にありません。
3. 特殊能力には専門家が必要
動画理解は現在 Kimi-K2.5 だけがサポートしており、計画レビューには SWE-bench 最高スコアの MiniMax-M2.5 が必要です。これらの特殊シナリオは「汎用的に強いモデル」で代替できません。
4. テストは理論より重要
設定完了後、以下の典型的なシナリオをテストすることをお勧めします:
- コード検索(Explore が呼ばれる)
- ドキュメント検索(Librarian が呼ばれる)
- 視覚分析(Multimodal-looker が呼ばれる)
- 複雑なアーキテクチャ設計(Oracle または Ultrabrain が呼ばれる)
まとめ
今回の調整は以前の設定に対する包括的なアップグレードです。最高のモデルなんて存在しません。あるのは最適なモデルだけです——この言葉は依然として真実ですが、新しいモデルが追加されることで「最適」の答えも変わります。
| シナリオ | 最適なモデル | 主な利点 |
|---|---|---|
| 指揮者の編成 | GLM-5 | 低ハルシネーション, 高信頼性 |
| 深い推論 | qwen3-max | GPQA 86.1%, LiveCodeBench 91.4% |
| 高頻度コーディング | qwen3-coder-next | $0.12/M, 151.5 tok/s |
| マルチモーダル/長文 | qwen3.5-plus | 1M コンテキスト, ネイティブマルチモーダル |
| 計画レビュー | MiniMax-M2.5 | SWE-bench 80.2% 最高 |
| 動画分析 | Kimi-K2.5 | 動画理解能力 |
設定完了後、システム全体の効率と効果が明らかに向上しました。各エージェントが得意なことを行い、連携がよりスムーズになりました。
oh-my-opencode を使用している方は、自分のユースケースと利用可能なモデルに基づいて設定を調整してみてください。適切なパートナーを見つけることが、生産性を倍増させる鍵なのです。