Featured image of post AIエージェントに最適なパートナーを見つける - oh-my-opencodeモデル選択ガイド

AIエージェントに最適なパートナーを見つける - oh-my-opencodeモデル選択ガイド

oh-my-opencodeの各エージェントに最適な中国製LLMを選ぶには?GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5を徹底的に検証し、実践で証明された構成戦略をご紹介します。パフォーマンスとコストの最適なバランスを実現しましょう。

1. なぜエージェントごとに異なるモデルを選ぶのか?

AI Team

最近oh-my-opencodeというプラグインを触っているときに、面白い問題に気づきました。プラグイン開発者は各エージェントに異なるLLMプロバイダーを推奨していますが、手元には中国製モデル(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5)がいくつかあります。どう割り振れば最大限活用できるのでしょうか?

チームのように、デザインが得意な人、コードが得意な人、ドキュメントが得意な人がいるのと同じです。モデルも同じように割り当てるべきです:最高のモデルなんて存在しません。あるのは、そのタスクに最適なモデルだけです

2. 5つの中国製LLMの「性格」分析

Code Analysis

タスクを割り振る前に、各モデルの得意分野を理解する必要があります。ベンチマークデータを調べてみると、各モデルには独自の「切り札」があることがわかりました。

2.1 GLMシリーズ:Zhipu AIのツインスター

GLM-4.7(355Bパラメータ、32Bアクティブ)

  • 数学の推論が強い(MATH 92%)
  • プログラミング能力も solid(LiveCodeBench 84.9%)
  • マルチモーダル対応
  • 価格は手頃($0.60/$2.20)

GLM-5.0(744Bパラメータ、40Bアクティブ)

  • パラメータは倍増したが、数学ベンチマークは逆に低下(MATH 88%)
  • エージェントタスクでSOTAレベル
  • ハルシネーション率が4.7より56%低い(これ重要!)
  • 最高価格($1.00/$3.20)

所感:GLM-5.0は複雑なタスク用に設計されたようです。4.7ほど速く数学を解くわけではありませんが、より安定していて信頼性が高い。「電卓」ではなく「脳」として使うのが正解です。

2.2 MiniMax-M2.5:コスパの王様

主要スペック(~230Bパラメータ、10Bアクティブ)

  • SWE-bench Verified最高スコア(80.2%)
  • 推論速度が爆速(Lightningモード:100 tok/s)
  • 最安値($0.30/$1.20)
  • ストレージフレンドリー(96GBまで量子化可能)

所感:いわゆる「速くて安い」伝説のモデル。大量のコードレビューや素早い修正が必要なら、これ一択です。

2.3 DeepSeek-V3.2:数学の天才+節約家

主要スペック(671Bパラメータ、37Bアクティブ)

  • AIME 2026最高スコア(94.17%)
  • IMO/IOI金メダルレベル
  • 異常に安い($0.28/$0.42、GPT-4oより27倍安い)
  • テキストのみ対応

所感:深い推論と長時間の自律的な作業が必要で、かつ予算を燃やしたくないなら、これがベストチョイスです。

2.4 Kimi-K2.5:マルチモーダルのオールラウンダー

主要スペック(1Tパラメータ、32Bアクティブ)

  • 最大コンテキストウィンドウ(256K)
  • 最強のマルチモーダル能力(MMMU 78.5%、OCRBench 92.3%)
  • 動画理解対応
  • エージェントスワーム(最大100個のサブエージェント)

所感:画像、動画、長文ドキュメントを処理する必要があるときは、このヘビー級チャンピオンが最強です。

3. oh-my-opencodeのエージェントアーキテクチャ解説

モデルを割り振る前に、oh-my-opencodeのエージェントアーキテクチャを研究してみました。2つのカテゴリーがあることがわかりました:

3.1 プライマリエージェント(UIモデル選択に従う)

  • Sisyphus:指揮者、タスクを編成し作業を委任
  • Hephaestus:ディープワーカー、タスクをエンドツーエンドで実行
  • Atlas:UI操作のメインモデル
  • Prometheus:戦略プランナー

3.2 サブエージェント(独立したモデル設定)

  • Oracle:複雑なデバッグ、アーキテクチャコンサルタント(EXPENSIVE)
  • Librarian:ドキュメント検索、外部ライブラリ照会(CHEAP)
  • Explore:コードベース検索スペシャリスト(CHEAP)
  • Metis:事前計画コンサルタント、暗黙の意図を識別(EXPENSIVE)
  • Momus:計画レビューア(CHEAP)
  • Multimodal-looker:画像/動画分析(EXPENSIVE)

3.3 カテゴリー(タスクタイプで自動呼び出し)

タスクタイプに基づいて自動的に呼び出される8つのカテゴリーもあります:

  • visual-engineering:フロントエンドUI
  • ultrabrain:複雑なロジック
  • deep:ディープワーク
  • artistry:クリエイティブタスク
  • quick:クイック修正
  • unspecified-low/high:単純/複雑なタスク
  • writing:ドキュメント生成

4. 設定の考え方と原則

Data Analytics

4.1 原則1:適材適所

マルチモーダルタスク → Kimi-K2.5

  • 理由:MMMU 78.5%、MathVision 84.2%、OCRBench 92.3%
  • 適用:UIデザイン、画像分析、動画理解

コード分析 → MiniMax-M2.5

  • 理由:SWE-bench Verified 80.2%(最高スコア)
  • 適用:コードレビュー、デバッグ、アーキテクチャ分析

複雑な推論 → GLM-5.0

  • 理由:低ハルシネーション率(4.7より56%低い)、エージェントタスクでSOTA
  • 適用:複雑な計画、アーキテクチャ設計、オーケストレーション

コスト最適化 → DeepSeek-V3.2

  • 理由:激安($0.28/M)、数学能力が高い
  • 適用:ドキュメント検索、長時間の自律的作業

4.2 原則2:高いモデルは重要な場面で使う

EXPENSIVEティアのエージェント(Oracle、Metis、Multimodal-looker)には強いモデルを、CHEAPティアのエージェント(Librarian、Explore、Momus)にはコスパモデルを使います。

5. 最終構成

5.1 エージェント設定表

エージェント 選択モデル 理由
hephaestus DeepSeek-V3.2 長時間実行が必要な深い自律作業—一番安いものを
oracle MiniMax-M2.5 SWE-bench最高スコア、コード分析が強い
librarian DeepSeek-V3.2 ドキュメント検索は重い処理不要—安く
explore GLM-4.7 コード検索は性能とコストのバランスが必要
multimodal-looker Kimi-K2.5 視覚分析は最強のマルチモーダルモデルが必要
prometheus GLM-5.0 戦略計画には低ハルシネーションと強い推論が必要
metis Kimi-K2.5 意図分析には強い理解力と長いコンテキストが必要
momus MiniMax-M2.5 計画レビューにはスピードと正確性が必要
atlas Kimi-K2.5 UI操作にはマルチモーダル対応が必要

5.2 カテゴリー設定表

カテゴリー 選択モデル 理由
visual-engineering Kimi-K2.5 フロントエンドUIデザインにマルチモーダル能力が必要
ultrabrain GLM-5.0 複雑なロジックには最強の推論と低ハルシネーションが必要
deep DeepSeek-V3.2 ディープワークは長時間実行—コスト重視
artistry Kimi-K2.5 クリエイティブタスクにはマルチモーダルとエージェントスワームが必要
quick MiniMax-M2.5 クイック修正には高速レスポンスと低コストが必要
unspecified-low MiniMax-M2.5 単純タスクは最高のコスパで
unspecified-high GLM-5.0 複雑タスクは最強の推論で
writing Kimi-K2.5 長文ドキュメントには256Kコンテキストが必要

6. 設定コード

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. コスト最適化の効果

Cost Optimization

全てをopencode/glm-4.7-free($0.60/M)で実行していた場合と比較:

タスクタイプ 元のコスト 新しいコスト 削減率
ドキュメント検索(Librarian) $0.60/M $0.28/M 53%
クイック修正(Quick) $0.60/M $0.30/M 50%
ディープワーク(Deep) $0.60/M $0.28/M 53%
コードレビュー(Momus) $0.60/M $0.30/M 50%

8. 学んだこととアドバイス

8.1 「最新・最強」を盲信しない

GLM-5.0は4.7の2倍のパラメータを持っていますが、数学ベンチマークは逆に下がりました。パラメータ数が全てではありません—具体的なタスク要件に注目しましょう。

8.2 マルチモーダル能力は本当に重要

最初はマルチモーダル機能の重要性を過小評価していました。UIのスクリーンショットを分析したり、チャートを処理したり、コードフローの図を理解したりする必要があるとき、Kimi-K2.5は明らかに優れています。

8.3 コスト敏感なタスクは個別に最適化

LibrarianやExploreのようなCHEAPティアのエージェントは頻繁に呼び出されますが、重い処理は必要ありません。DeepSeek-V3.2に切り替えることで、全体的なコストが大幅に削減されました。

8.4 EXPENSIVEエージェントは重要な場面で使う

OracleやMetisのようなEXPENSIVEティアのエージェントでケチってはいけません。これらは強い推論能力が必要な複雑なタスクを処理します。

8.5 テストは理論より重要

設定後、これらの典型的なシナリオをテストすることをお勧めします:

  • コード検索(Exploreが呼ばれる)
  • ドキュメント検索(Librarianが呼ばれる)
  • 視覚分析(Multimodal-lookerが呼ばれる)
  • 複雑なアーキテクチャ設計(OracleまたはUltrabrainが呼ばれる)

9. まとめ

今回の設定で得た最大の教訓:最高のモデルなんて存在しません。あるのは、最適なモデルだけです

  • Kimi-K2.5:マルチモーダルシーンの首选—視覚分析、長文ドキュメント処理
  • MiniMax-M2.5:コードレビューとクイック修正の強力なツール、圧倒的なコスパ
  • GLM-5.0:複雑な計画とオーケストレーションの「脳」—低ハルシネーションが重要
  • DeepSeek-V3.2:ディープワークとドキュメント検索の予算フレンドリーな専門家
  • GLM-4.7:中程度の複雑さのタスクに適したバランス型

この設定を適用した後、システム全体が明らかに効率的になりました。各エージェントが得意なことを行い、コストもより合理的になりました。

oh-my-opencodeを使っている方は、自分のユースケースに合わせて設定を調整してみてください。結局のところ、適切なパートナーを見つけることが生産性を倍増させる鍵なのです。


注:この記事は2026年3月時点のモデルデータに基づいています。ベンチマークと価格は変更される可能性があります—最新のデータを参照してください。