1. なぜエージェントごとに異なるモデルを選ぶのか?

最近oh-my-opencodeというプラグインを触っているときに、面白い問題に気づきました。プラグイン開発者は各エージェントに異なるLLMプロバイダーを推奨していますが、手元には中国製モデル(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5)がいくつかあります。どう割り振れば最大限活用できるのでしょうか?
チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです。モデルも同じように割り当てるべきです:最高のモデルなんて存在しません。あるのは、そのタスクに最適なモデルだけです。
2. 5つの中国製LLMの「性格」分析

タスクを割り振る前に、各モデルの得意分野を理解する必要があります。ベンチマークデータを調べてみると、各モデルには独自の「切り札」があることがわかりました。
2.1 GLMシリーズ:Zhipu AIのツインスター
GLM-4.7(355Bパラメータ、32Bアクティブ)
- 数学の推論が強い(MATH 92%)
- プログラミング能力も solid(LiveCodeBench 84.9%)
- マルチモーダル対応
- 価格は手頃($0.60/$2.20)
GLM-5.0(744Bパラメータ、40Bアクティブ)
- パラメータは倍増したが、数学ベンチマークは逆に低下(MATH 88%)
- エージェントタスクでSOTAレベル
- ハルシネーション率が4.7より56%低い(これ重要!)
- 最高価格($1.00/$3.20)
所感:GLM-5.0は複雑なタスク用に設計されたようです。4.7ほど速く数学を解くわけではありませんが、より安定していて信頼性が高い。「電卓」ではなく「脳」として使うのが正解です。
2.2 MiniMax-M2.5:コスパの王様
主要スペック(~230Bパラメータ、10Bアクティブ)
- SWE-bench Verified最高スコア(80.2%)
- 推論速度が爆速(Lightningモード:100 tok/s)
- 最安値($0.30/$1.20)
- ストレージフレンドリー(96GBまで量子化可能)
所感:いわゆる「速くて安い」伝説のモデル。大量のコードレビューや素早い修正が必要なら、これ一択です。
2.3 DeepSeek-V3.2:数学の天才+節約家
主要スペック(671Bパラメータ、37Bアクティブ)
- AIME 2026最高スコア(94.17%)
- IMO/IOI金メダルレベル
- 異常に安い($0.28/$0.42、GPT-4oより27倍安い)
- テキストのみ対応
所感:深い推論と長時間の自律的な作業が必要で、かつ予算を燃やしたくないなら、これがベストチョイスです。
2.4 Kimi-K2.5:マルチモーダルのオールラウンダー
主要スペック(1Tパラメータ、32Bアクティブ)
- 最大コンテキストウィンドウ(256K)
- 最強のマルチモーダル能力(MMMU 78.5%、OCRBench 92.3%)
- 動画理解対応
- エージェントスワーム(最大100個のサブエージェント)
所感:画像、動画、長文ドキュメントを処理する必要があるときは、このヘビー級チャンピオンが最強です。
3. oh-my-opencodeのエージェントアーキテクチャ解説
モデルを割り振る前に、oh-my-opencodeのエージェントアーキテクチャを研究してみました。2つのカテゴリーがあることがわかりました:
3.1 プライマリエージェント(UIモデル選択に従う)
- Sisyphus:指揮者、タスクを編成し作業を委任
- Hephaestus:ディープワーカー、タスクをエンドツーエンドで実行
- Atlas:UI操作のメインモデル
- Prometheus:戦略プランナー
3.2 サブエージェント(独立したモデル設定)
- Oracle:複雑なデバッグ、アーキテクチャコンサルタント(EXPENSIVE)
- Librarian:ドキュメント検索、外部ライブラリ照会(CHEAP)
- Explore:コードベース検索スペシャリスト(CHEAP)
- Metis:事前計画コンサルタント、暗黙の意図を識別(EXPENSIVE)
- Momus:計画レビューア(CHEAP)
- Multimodal-looker:画像/動画分析(EXPENSIVE)
3.3 カテゴリー(タスクタイプで自動呼び出し)
タスクタイプに基づいて自動的に呼び出される8つのカテゴリーもあります:
- visual-engineering:フロントエンドUI
- ultrabrain:複雑なロジック
- deep:ディープワーク
- artistry:クリエイティブタスク
- quick:クイック修正
- unspecified-low/high:単純/複雑なタスク
- writing:ドキュメント生成
4. 設定の考え方と原則

4.1 原則1:適材適所
マルチモーダルタスク → Kimi-K2.5
- 理由:MMMU 78.5%、MathVision 84.2%、OCRBench 92.3%
- 適用:UIデザイン、画像分析、動画理解
コード分析 → MiniMax-M2.5
- 理由:SWE-bench Verified 80.2%(最高スコア)
- 適用:コードレビュー、デバッグ、アーキテクチャ分析
複雑な推論 → GLM-5.0
- 理由:低ハルシネーション率(4.7より56%低い)、エージェントタスクでSOTA
- 適用:複雑な計画、アーキテクチャ設計、オーケストレーション
コスト最適化 → DeepSeek-V3.2
- 理由:激安($0.28/M)、数学能力が高い
- 適用:ドキュメント検索、長時間の自律的作業
4.2 原則2:高いモデルは重要な場面で使う
EXPENSIVEティアのエージェント(Oracle、Metis、Multimodal-looker)には強いモデルを、CHEAPティアのエージェント(Librarian、Explore、Momus)にはコスパモデルを使います。
5. 最終構成
5.1 エージェント設定表
| エージェント | 選択モデル | 理由 |
|---|---|---|
| hephaestus | DeepSeek-V3.2 | 長時間実行が必要な深い自律作業—一番安いものを |
| oracle | MiniMax-M2.5 | SWE-bench最高スコア、コード分析が強い |
| librarian | DeepSeek-V3.2 | ドキュメント検索は重い処理不要—安く |
| explore | GLM-4.7 | コード検索は性能とコストのバランスが必要 |
| multimodal-looker | Kimi-K2.5 | 視覚分析は最強のマルチモーダルモデルが必要 |
| prometheus | GLM-5.0 | 戦略計画には低ハルシネーションと強い推論が必要 |
| metis | Kimi-K2.5 | 意図分析には強い理解力と長いコンテキストが必要 |
| momus | MiniMax-M2.5 | 計画レビューにはスピードと正確性が必要 |
| atlas | Kimi-K2.5 | UI操作にはマルチモーダル対応が必要 |
5.2 カテゴリー設定表
| カテゴリー | 選択モデル | 理由 |
|---|---|---|
| visual-engineering | Kimi-K2.5 | フロントエンドUIデザインにマルチモーダル能力が必要 |
| ultrabrain | GLM-5.0 | 複雑なロジックには最強の推論と低ハルシネーションが必要 |
| deep | DeepSeek-V3.2 | ディープワークは長時間実行—コスト重視 |
| artistry | Kimi-K2.5 | クリエイティブタスクにはマルチモーダルとエージェントスワームが必要 |
| quick | MiniMax-M2.5 | クイック修正には高速レスポンスと低コストが必要 |
| unspecified-low | MiniMax-M2.5 | 単純タスクは最高のコスパで |
| unspecified-high | GLM-5.0 | 複雑タスクは最強の推論で |
| writing | Kimi-K2.5 | 長文ドキュメントには256Kコンテキストが必要 |
6. 設定コード
|
|
7. コスト最適化の効果

全てをopencode/glm-4.7-free($0.60/M)で実行していた場合と比較:
| タスクタイプ | 元のコスト | 新しいコスト | 削減率 |
|---|---|---|---|
| ドキュメント検索(Librarian) | $0.60/M | $0.28/M | 53% |
| クイック修正(Quick) | $0.60/M | $0.30/M | 50% |
| ディープワーク(Deep) | $0.60/M | $0.28/M | 53% |
| コードレビュー(Momus) | $0.60/M | $0.30/M | 50% |
8. 学んだこととアドバイス
8.1 「最新・最強」を盲信しない
GLM-5.0は4.7の2倍のパラメータを持っていますが、数学ベンチマークは逆に下がりました。パラメータ数が全てではありません—具体的なタスク要件に注目しましょう。
8.2 マルチモーダル能力は本当に重要
最初はマルチモーダル機能の重要性を過小評価していました。UIのスクリーンショットを分析したり、チャートを処理したり、コードフローの図を理解したりする必要があるとき、Kimi-K2.5は明らかに優れています。
8.3 コスト敏感なタスクは個別に最適化
LibrarianやExploreのようなCHEAPティアのエージェントは頻繁に呼び出されますが、重い処理は必要ありません。DeepSeek-V3.2に切り替えることで、全体的なコストが大幅に削減されました。
8.4 EXPENSIVEエージェントは重要な場面で使う
OracleやMetisのようなEXPENSIVEティアのエージェントでケチってはいけません。これらは強い推論能力が必要な複雑なタスクを処理します。
8.5 テストは理論より重要
設定後、これらの典型的なシナリオをテストすることをお勧めします:
- コード検索(Exploreが呼ばれる)
- ドキュメント検索(Librarianが呼ばれる)
- 視覚分析(Multimodal-lookerが呼ばれる)
- 複雑なアーキテクチャ設計(OracleまたはUltrabrainが呼ばれる)
9. まとめ
今回の設定で得た最大の教訓:最高のモデルなんて存在しません。あるのは、最適なモデルだけです。
- Kimi-K2.5:マルチモーダルシーンの首选—視覚分析、長文ドキュメント処理
- MiniMax-M2.5:コードレビューとクイック修正の強力なツール、圧倒的なコスパ
- GLM-5.0:複雑な計画とオーケストレーションの「脳」—低ハルシネーションが重要
- DeepSeek-V3.2:ディープワークとドキュメント検索の予算フレンドリーな専門家
- GLM-4.7:中程度の複雑さのタスクに適したバランス型
この設定を適用した後、システム全体が明らかに効率的になりました。各エージェントが得意なことを行い、コストもより合理的になりました。
oh-my-opencodeを使っている方は、自分のユースケースに合わせて設定を調整してみてください。結局のところ、適切なパートナーを見つけることが生産性を倍増させる鍵なのです。
注:この記事は2026年3月時点のモデルデータに基づいています。ベンチマークと価格は変更される可能性があります—最新のデータを参照してください。