Featured image of post 给你的AI Agent找个好搭档 - oh-my-opencode模型选择指南

给你的AI Agent找个好搭档 - oh-my-opencode模型选择指南

如何为oh-my-opencode的不同agent选择最适合的国产大模型?本文基于GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2和Kimi-K2.5的深度调研,提供了一套经过实践验证的配置方案,帮助你实现性能与成本的最优平衡。

1. 为什么要为不同Agent选择不同模型?

AI Team

最近在折腾oh-my-opencode这个插件时,我发现一个有趣的问题:插件开发者为不同的agent推荐了不同厂家的大模型,但我手头有一堆国产模型(GLM-4.7、GLM-5.0、MiniMax-M2.5、DeepSeek-V3.2、Kimi-K2.5),该怎么分配才能物尽其用?

就像一个团队里,有人擅长设计,有人擅长代码,有人擅长文档。模型也应该这样分配:没有最好的模型,只有最适合的模型

2. 五个国产模型的"性格"分析

Code Analysis

在分配任务之前,得先了解每个模型的特长。我花了些时间研究它们的benchmark数据,发现每个模型都有自己的"绝活"。

2.1 GLM系列:智谱AI的双子星

GLM-4.7(355B参数,32B激活)

  • 数学推理很强(MATH 92%)
  • 编程能力在线(LiveCodeBench 84.9%)
  • 支持多模态
  • 价格适中($0.60/$2.20)

GLM-5.0(744B参数,40B激活)

  • 参数量翻倍,但数学基准反而下降(MATH 88%)
  • Agent任务SOTA级别
  • 幻觉率比4.7低56%(这点很重要!)
  • 最贵($1.00/$3.20)

观察:GLM-5.0像是专门为复杂任务设计的,虽然数学题做得不如4.7快,但更稳、更可靠。适合做"大脑"而不是"计算器"。

2.2 MiniMax-M2.5:性价比之王

关键数据(~230B参数,10B激活)

  • SWE-bench Verified最高分(80.2%)
  • 推理速度极快(Lightning模式100 tok/s)
  • 最便宜($0.30/$1.20)
  • 存储需求友好(可量化到96GB)

观察:这就是传说中的"又快又省"。如果你需要大量代码审查、快速修改,选它准没错。

2.3 DeepSeek-V3.2:数学天才+省钱专家

关键数据(671B参数,37B激活)

  • AIME 2026最高分(94.17%)
  • IMO/IOI金牌水平
  • 极致便宜($0.28/$0.42,比GPT-4o便宜27倍)
  • 仅文本模式

观察:如果你需要深度推理、长期自主工作,又不想烧钱,这是最佳选择。

2.4 Kimi-K2.5:多模态全能王

关键数据(1T参数,32B激活)

  • 最大上下文(256K)
  • 最强多模态(MMMU 78.5%,OCRBench 92.3%)
  • 支持视频理解
  • Agent Swarm(最多100个子代理)

观察:需要处理图像、视频、长文档的时候,它是最强选手。

3. oh-my-opencode的Agent架构解析

在分配模型之前,我研究了一下oh-my-opencode的agent架构。发现它有两类agents:

3.1 Primary Agents(跟随UI选择的模型)

  • Sisyphus:总指挥,负责编排任务、委托工作
  • Hephaestus:深度工作者,端到端执行任务
  • Atlas:UI交互的主模型
  • Prometheus:战略规划者

3.2 Subagent Agents(有独立的模型配置)

  • Oracle:复杂调试、架构设计顾问(EXPENSIVE)
  • Librarian:文档检索、外部库查询(CHEAP)
  • Explore:代码库搜索专家(CHEAP)
  • Metis:预规划顾问,识别隐含意图(EXPENSIVE)
  • Momus:计划审查员(CHEAP)
  • Multimodal-looker:图像/视频分析(EXPENSIVE)

3.3 Categories(根据任务类型自动调用)

还有8个Categories根据任务类型自动调用:

  • visual-engineering:前端UI
  • ultrabrain:复杂逻辑
  • deep:深度工作
  • artistry:创意任务
  • quick:快速修改
  • unspecified-low/high:简单/复杂任务
  • writing:文档生成

4. 配置思路与原则

Data Analytics

4.1 原则一:专业的人做专业的事

多模态任务 → Kimi-K2.5

  • 理由:MMMU 78.5%,MathVision 84.2%,OCRBench 92.3%
  • 适合:UI设计、图像分析、视频理解

代码分析 → MiniMax-M2.5

  • 理由:SWE-bench Verified 80.2%(最高分)
  • 适合:代码审查、调试、架构分析

复杂推理 → GLM-5.0

  • 理由:低幻觉率(比4.7低56%),Agent任务SOTA
  • 适合:复杂规划、架构设计、orchestration

成本优化 → DeepSeek-V3.2

  • 理由:极致便宜($0.28/M),数学能力强
  • 适合:文档检索、长期自主工作

4.2 原则二:贵的模型用在刀刃上

EXPENSIVE级别的agents(Oracle、Metis、Multimodal-looker)用强模型,CHEAP级别的(Librarian、Explore、Momus)用性价比模型。

5. 最终配置方案

5.1 Agents配置表

Agent 选择模型 理由
hephaestus DeepSeek-V3.2 深度自主工作,需要长时间运行,选最便宜的
oracle MiniMax-M2.5 SWE-bench最高分,代码分析能力强
librarian DeepSeek-V3.2 文档检索不需要太强能力,选最便宜的
explore GLM-4.7 代码搜索需要平衡性能和成本
multimodal-looker Kimi-K2.5 视觉分析必须用多模态最强的
prometheus GLM-5.0 战略规划需要低幻觉率、强推理
metis Kimi-K2.5 意图分析需要强大理解和长上下文
momus MiniMax-M2.5 计划审查需要快速且准确
atlas Kimi-K2.5 UI交互需要多模态支持

5.2 Categories配置表

Category 选择模型 理由
visual-engineering Kimi-K2.5 前端UI设计需要多模态能力
ultrabrain GLM-5.0 复杂逻辑需要最强推理和低幻觉
deep DeepSeek-V3.2 深度工作需要长时间运行,成本最优
artistry Kimi-K2.5 创意任务需要多模态和Agent Swarm
quick MiniMax-M2.5 快速修改需要极快响应和低成本
unspecified-low MiniMax-M2.5 简单任务用性价比最高的
unspecified-high GLM-5.0 复杂任务用推理最强的
writing Kimi-K2.5 长文档需要256K上下文

6. 实际配置代码

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
{
  "$schema": "https://raw.githubusercontent.com/code-yeongyu/oh-my-opencode/dev/assets/oh-my-opencode.schema.json",
  "agents": {
    "hephaestus": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "oracle": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "librarian": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "explore": {
      "model": "opencode/go-glm-4.7"
    },
    "multimodal-looker": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "prometheus": {
      "model": "opencode/go-glm-5"
    },
    "metis": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "momus": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "atlas": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  },
  "categories": {
    "visual-engineering": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "ultrabrain": {
      "model": "opencode/go-glm-5"
    },
    "deep": {
      "model": "volcengine-coding/deepseek-v3.2"
    },
    "artistry": {
      "model": "volcengine-coding/kimi-k2.5"
    },
    "quick": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-low": {
      "model": "volcengine-coding/minimax-m2.5"
    },
    "unspecified-high": {
      "model": "opencode/go-glm-5"
    },
    "writing": {
      "model": "volcengine-coding/kimi-k2.5"
    }
  }
}

7. 成本优化效果

Cost Optimization

相比原来全部用opencode/glm-4.7-free($0.60/M),现在:

任务类型 原成本 新成本 节省
文档检索(Librarian) $0.60/M $0.28/M 53%
快速修改(Quick) $0.60/M $0.30/M 50%
深度工作(Deep) $0.60/M $0.28/M 53%
代码审查(Momus) $0.60/M $0.30/M 50%

8. 踩坑经验与建议

8.1 不要迷信"最新最强"

GLM-5.0参数量比4.7大一倍,但数学基准反而下降。说明参数量不是万能的,要看具体任务需求。

8.2 多模态能力真的很重要

我之前低估了多模态的重要性。当你需要分析UI截图、处理图表、理解代码流程图时,Kimi-K2.5的表现明显更好。

8.3 成本敏感的任务要单独优化

Librarian和Explore这类CHEAP级别的agents,调用频率高但不需要太强能力。用DeepSeek-V3.2后,整体成本下降明显。

8.4 EXPENSIVE agents要用在关键场景

Oracle、Metis这些EXPENSIVE级别的agents,不要为了省钱用弱模型。它们处理的是复杂任务,需要强推理能力。

8.5 测试比理论重要

配置完成后,建议测试几个典型场景:

  • 代码搜索(会调用Explore)
  • 文档检索(会调用Librarian)
  • 视觉分析(会调用Multimodal-looker)
  • 复杂架构设计(会调用Oracle或Ultrabrain)

9. 总结

这次配置最大的收获是:没有最好的模型,只有最适合的模型

  • Kimi-K2.5:多模态场景的首选,视觉分析、长文档处理
  • MiniMax-M2.5:代码审查和快速修改的神器,性价比极高
  • GLM-5.0:复杂规划和orchestration的"大脑",低幻觉率很重要
  • DeepSeek-V3.2:深度工作和文档检索的省钱专家
  • GLM-4.7:平衡型选手,适合中等复杂度任务

配置完成后,感觉整个系统的效率提升了不少。每个agent都在做自己最擅长的事情,成本也更合理了。

如果你也在用oh-my-opencode,建议根据自己的使用场景调整一下配置。毕竟,找到合适的搭档,工作效率才能翻倍。


注:本文基于2026年3月的模型数据,benchmark和价格可能会有变化,请以最新数据为准。