AIエージェントに最適なパートナーを見つける

1. なぜエージェントごとに異なるモデルを選ぶのか？

AI Team

最近oh-my-opencodeというプラグインを触っているときに、面白い問題に気づきました。プラグイン開発者は各エージェントに異なるLLMプロバイダーを推奨していますが、手元には中国製モデル（GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5）がいくつかあります。どう割り振れば最大限活用できるのでしょうか？

チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです。モデルも同じように割り当てるべきです：最高のモデルなんて存在しません。あるのは、そのタスクに最適なモデルだけです。

2. 5つの中国製LLMの「性格」分析

Code Analysis

タスクを割り振る前に、各モデルの得意分野を理解する必要があります。ベンチマークデータを調べてみると、各モデルには独自の「切り札」があることがわかりました。

2.1 GLMシリーズ：Zhipu AIのツインスター

GLM-4.7（355Bパラメータ、32Bアクティブ）

数学の推論が強い（MATH 92%）
プログラミング能力も solid（LiveCodeBench 84.9%）
マルチモーダル対応
価格は手頃（$0.60/$2.20）

GLM-5.0（744Bパラメータ、40Bアクティブ）

パラメータは倍増したが、数学ベンチマークは逆に低下（MATH 88%）
エージェントタスクでSOTAレベル
ハルシネーション率が4.7より56%低い（これ重要！）
最高価格（$1.00/$3.20）

所感：GLM-5.0は複雑なタスク用に設計されたようです。4.7ほど速く数学を解くわけではありませんが、より安定していて信頼性が高い。「電卓」ではなく「脳」として使うのが正解です。

2.2 MiniMax-M2.5：コスパの王様

主要スペック（~230Bパラメータ、10Bアクティブ）

SWE-bench Verified最高スコア（80.2%）
推論速度が爆速（Lightningモード：100 tok/s）
最安値（$0.30/$1.20）
ストレージフレンドリー（96GBまで量子化可能）

所感：いわゆる「速くて安い」伝説のモデル。大量のコードレビューや素早い修正が必要なら、これ一択です。

2.3 DeepSeek-V3.2：数学の天才＋節約家

主要スペック（671Bパラメータ、37Bアクティブ）

AIME 2026最高スコア（94.17%）
IMO/IOI金メダルレベル
異常に安い（$0.28/$0.42、GPT-4oより27倍安い）
テキストのみ対応

所感：深い推論と長時間の自律的な作業が必要で、かつ予算を燃やしたくないなら、これがベストチョイスです。

2.4 Kimi-K2.5：マルチモーダルのオールラウンダー

主要スペック（1Tパラメータ、32Bアクティブ）

最大コンテキストウィンドウ（256K）
最強のマルチモーダル能力（MMMU 78.5%、OCRBench 92.3%）
動画理解対応
エージェントスワーム（最大100個のサブエージェント）

所感：画像、動画、長文ドキュメントを処理する必要があるときは、このヘビー級チャンピオンが最強です。

3. oh-my-opencodeのエージェントアーキテクチャ解説

モデルを割り振る前に、oh-my-opencodeのエージェントアーキテクチャを研究してみました。2つのカテゴリーがあることがわかりました：

3.1 プライマリエージェント（UIモデル選択に従う）

Sisyphus：指揮者、タスクを編成し作業を委任
Hephaestus：ディープワーカー、タスクをエンドツーエンドで実行
Atlas：UI操作のメインモデル
Prometheus：戦略プランナー

3.2 サブエージェント（独立したモデル設定）

Oracle：複雑なデバッグ、アーキテクチャコンサルタント（EXPENSIVE）
Librarian：ドキュメント検索、外部ライブラリ照会（CHEAP）
Explore：コードベース検索スペシャリスト（CHEAP）
Metis：事前計画コンサルタント、暗黙の意図を識別（EXPENSIVE）
Momus：計画レビューア（CHEAP）
Multimodal-looker：画像/動画分析（EXPENSIVE）

3.3 カテゴリー（タスクタイプで自動呼び出し）

タスクタイプに基づいて自動的に呼び出される8つのカテゴリーもあります：

visual-engineering：フロントエンドUI
ultrabrain：複雑なロジック
deep：ディープワーク
artistry：クリエイティブタスク
quick：クイック修正
unspecified-low/high：単純/複雑なタスク
writing：ドキュメント生成

4. 設定の考え方と原則

Data Analytics

4.1 原則1：適材適所

マルチモーダルタスク → Kimi-K2.5

理由：MMMU 78.5%、MathVision 84.2%、OCRBench 92.3%
適用：UIデザイン、画像分析、動画理解

コード分析 → MiniMax-M2.5

理由：SWE-bench Verified 80.2%（最高スコア）
適用：コードレビュー、デバッグ、アーキテクチャ分析

複雑な推論 → GLM-5.0

理由：低ハルシネーション率（4.7より56%低い）、エージェントタスクでSOTA
適用：複雑な計画、アーキテクチャ設計、オーケストレーション

コスト最適化 → DeepSeek-V3.2

理由：激安（$0.28/M）、数学能力が高い
適用：ドキュメント検索、長時間の自律的作業

4.2 原則2：高いモデルは重要な場面で使う

EXPENSIVEティアのエージェント（Oracle、Metis、Multimodal-looker）には強いモデルを、CHEAPティアのエージェント（Librarian、Explore、Momus）にはコスパモデルを使います。

5. 最終構成

5.1 エージェント設定表

エージェント	選択モデル	理由
hephaestus	DeepSeek-V3.2	長時間実行が必要な深い自律作業—一番安いものを
oracle	MiniMax-M2.5	SWE-bench最高スコア、コード分析が強い
librarian	DeepSeek-V3.2	ドキュメント検索は重い処理不要—安く
explore	GLM-4.7	コード検索は性能とコストのバランスが必要
multimodal-looker	Kimi-K2.5	視覚分析は最強のマルチモーダルモデルが必要
prometheus	GLM-5.0	戦略計画には低ハルシネーションと強い推論が必要
metis	Kimi-K2.5	意図分析には強い理解力と長いコンテキストが必要
momus	MiniMax-M2.5	計画レビューにはスピードと正確性が必要
atlas	Kimi-K2.5	UI操作にはマルチモーダル対応が必要

5.2 カテゴリー設定表

カテゴリー	選択モデル	理由
visual-engineering	Kimi-K2.5	フロントエンドUIデザインにマルチモーダル能力が必要
ultrabrain	GLM-5.0	複雑なロジックには最強の推論と低ハルシネーションが必要
deep	DeepSeek-V3.2	ディープワークは長時間実行—コスト重視
artistry	Kimi-K2.5	クリエイティブタスクにはマルチモーダルとエージェントスワームが必要
quick	MiniMax-M2.5	クイック修正には高速レスポンスと低コストが必要
unspecified-low	MiniMax-M2.5	単純タスクは最高のコスパで
unspecified-high	GLM-5.0	複雑タスクは最強の推論で
writing	Kimi-K2.5	長文ドキュメントには256Kコンテキストが必要

6. 設定コード

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58


{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. コスト最適化の効果

Cost Optimization

全てをopencode/glm-4.7-free（$0.60/M）で実行していた場合と比較：

タスクタイプ	元のコスト	新しいコスト	削減率
ドキュメント検索（Librarian）	$0.60/M	$0.28/M	53%
クイック修正（Quick）	$0.60/M	$0.30/M	50%
ディープワーク（Deep）	$0.60/M	$0.28/M	53%
コードレビュー（Momus）	$0.60/M	$0.30/M	50%

8. 学んだこととアドバイス

8.1 「最新・最強」を盲信しない

GLM-5.0は4.7の2倍のパラメータを持っていますが、数学ベンチマークは逆に下がりました。パラメータ数が全てではありません—具体的なタスク要件に注目しましょう。

8.2 マルチモーダル能力は本当に重要

最初はマルチモーダル機能の重要性を過小評価していました。UIのスクリーンショットを分析したり、チャートを処理したり、コードフローの図を理解したりする必要があるとき、Kimi-K2.5は明らかに優れています。

8.3 コスト敏感なタスクは個別に最適化

LibrarianやExploreのようなCHEAPティアのエージェントは頻繁に呼び出されますが、重い処理は必要ありません。DeepSeek-V3.2に切り替えることで、全体的なコストが大幅に削減されました。

8.4 EXPENSIVEエージェントは重要な場面で使う

OracleやMetisのようなEXPENSIVEティアのエージェントでケチってはいけません。これらは強い推論能力が必要な複雑なタスクを処理します。

8.5 テストは理論より重要

設定後、これらの典型的なシナリオをテストすることをお勧めします：

コード検索（Exploreが呼ばれる）
ドキュメント検索（Librarianが呼ばれる）
視覚分析（Multimodal-lookerが呼ばれる）
複雑なアーキテクチャ設計（OracleまたはUltrabrainが呼ばれる）

9. まとめ

今回の設定で得た最大の教訓：最高のモデルなんて存在しません。あるのは、最適なモデルだけです。

Kimi-K2.5：マルチモーダルシーンの首选—視覚分析、長文ドキュメント処理
MiniMax-M2.5：コードレビューとクイック修正の強力なツール、圧倒的なコスパ
GLM-5.0：複雑な計画とオーケストレーションの「脳」—低ハルシネーションが重要
DeepSeek-V3.2：ディープワークとドキュメント検索の予算フレンドリーな専門家
GLM-4.7：中程度の複雑さのタスクに適したバランス型

この設定を適用した後、システム全体が明らかに効率的になりました。各エージェントが得意なことを行い、コストもより合理的になりました。

oh-my-opencodeを使っている方は、自分のユースケースに合わせて設定を調整してみてください。結局のところ、適切なパートナーを見つけることが生産性を倍増させる鍵なのです。

注：この記事は2026年3月時点のモデルデータに基づいています。ベンチマークと価格は変更される可能性があります—最新のデータを参照してください。