第四章:智能体(Agents)全景详解
oh-my-openagent(OmO)内置 11 个智能体。它们不是 11 个独立的 prompt 模板,而是被精心设计成一支”工程团队”——每位有清晰的职责、独特的提示词风格、最佳搭配的模型、明确的工具权限边界。本章逐个介绍它们,并把”在什么时候叫它们出来”讲清楚。
4.1 11 个 Agent 全景图
按”组织职能”分四组:
| 分组 | 成员 |
|---|---|
| 核心(Core) | Sisyphus、Hephaestus、Oracle、Librarian、Explore、Multimodal-Looker |
| 规划(Planning) | Prometheus、Metis、Momus |
| 编排(Orchestration) | Atlas、Sisyphus-Junior |
| —— | —— |
按”我什么时候会用到它”分三种交互方式:
- 默认对话 → 默认就是 Sisyphus;
- Tab 切换 Agent → 进入 Hephaestus / Prometheus 等;
@xxx提及 /task()调用 → 由当前 Agent 内部委派。
OmO 还为核心 Agent 注入了确定性的 tab 循环顺序(avoid 顺序漂移):Sisyphus(1) → Hephaestus(2) → Prometheus(3) → Atlas(4) → 其余 Agent。
4.2 Sisyphus:主指挥官(The Default Orchestrator)
名字取自希腊神话:每天推石上山,永不停歇。
4.2.1 角色定位
Sisyphus 是 OmO 的 默认编排者。他不是”最聪明”的那个,而是”最善于沟通和调度”的那个:
- 制定计划、维护 todo 列表;
- 调用
task()、call_omo_agent()并行下发子任务; - 处理 IntentGate 分类后的请求;
- 配合
extended thinking(32k budget)做深度规划。
形象地说,Sisyphus 是那种 走遍各处、和每个人都熟、会通过沟通和协调把事情搞定 的项目经理——但纯粹深度技术问题(race condition、内存泄漏)他会让 Hephaestus / Oracle 上。
4.2.2 推荐模型
| 模型 | 适配度 | 备注 |
|---|---|---|
| Claude Opus 4.7 | 极佳 | 默认首选,约 1100 行的 Sisyphus 提示词是按 Opus 调的 |
| Kimi K2.5 | 极佳 | Claude-like,很多用户只用 Kimi 跑也能爽 |
| GLM 5 | 良好 | 通过 Z.ai 接入 |
| GPT-5.4 | 一般 | 已经有专门的 GPT 提示词路径,但仍不是首选 |
| 老旧 GPT | ❌ 不推荐 | 没有专门的提示词 |
完整 fallback 链(运行时实测):
anthropic|github-copilot|opencode/claude-opus-4-7 (max)
→ opencode-go/kimi-k2.5
→ kimi-for-coding/k2p5
→ opencode|moonshotai|moonshotai-cn|firmware|ollama-cloud|aihubmix/kimi-k2.5
→ openai|github-copilot|opencode/gpt-5.4 (medium)
→ zai-coding-plan|opencode/glm-5
→ opencode/big-pickle
4.2.3 关键特性
- 极度激进的并行调度(”积极并行”是 Sisyphus 的核心方法论);
- 触发关键词
ultrawork/ulw时自动进入”全力以赴模式”; - 所有任务在没跑完之前不结束,对应
todo-continuation-enforcerHook; - 默认 Extended Thinking 32k tokens;
- 受
no-sisyphus-gptHook 保护:在不兼容的老 GPT 模型上会被阻止启动。
4.3 Hephaestus:正牌工匠(The Legitimate Craftsman)
名字取自希腊神话铸造之神。带有故意的讽刺:因为这个项目曾被 Anthropic 屏蔽了 Claude API,OmO 团队就为 GPT 系列单独打造了 Hephaestus。
4.3.1 角色定位
Hephaestus 是 GPT-5.4 原生的自主深度工作者,灵感来自 AmpCode 的 deep mode。给他一个目标,不要给他一个食谱——他自己探索代码、自己研究模式、自己端到端实现,不会让你做保姆。
适用:
- 复杂架构推理(设计新插件系统、单体拆微服务);
- 跨多文件的复杂调试(race condition、内存泄漏、异常追踪);
- 跨域知识合成(Rust 内核 ↔ TS 前端、MongoDB → PostgreSQL 零停机迁移);
- 任何”我特别想用 GPT-5.4 推理风格”的场景。
4.3.2 模型 & 限制
- 模型:GPT-5.4 (medium) only,没有回退;
- 必须有 GPT 提供商;
- 受
no-hephaestus-non-gptHook 保护:被强行换非 GPT 模型时会被阻止。
4.3.3 与 Sisyphus + ulw 的对比
| 维度 | Hephaestus | Sisyphus + ulw |
|---|---|---|
| 模型 | GPT-5.4 (medium) | Opus / Kimi / GPT-5.4 / GLM 等 |
| 风格 | 自主深度独行匠 | 关键词激活的全员协作 |
| 适用 | 深架构 / 跨域硬骨头 | 通用复杂任务、”懒人模式” |
| 计划 | 边做边自规划 | 优先用 Prometheus 计划 |
| 委派 | 重度使用 explore / librarian | 用 Category 派发 |
| 温度 | 0.1 | 0.1 |
结论:90% 任务用 ulw;只有当你特别想用 GPT-5.4 风格或要求”AmpCode 深度探索”体验时才切到 Hephaestus(Tab → 选 Hephaestus)。
4.4 Prometheus:战略规划师(The Planner)
取自希腊神话盗火者,”先思而后行”。
4.4.1 角色定位
Prometheus 是 READ-ONLY 的访谈型规划师:只能在 .sisyphus/ 目录下创建/修改 Markdown 文件,不能写任何代码。
工作流程:
- 你描述需求(”我要重构 auth 系统”);
- Prometheus 启动 explore / librarian 调研代码;
- 与你做多轮访谈,逐项澄清范围、边界、技术路线、测试策略;
- 通过”可放行检查”(核心目标 / 范围 / 关键歧义 / 技术路线 / 测试策略全部齐备)后;
- 强制咨询 Metis 做缺口分析;
- 把发现写入计划,呈递用户;
- 如果开启高准确度模式,Momus 严格审查 → 可能 REJECT 让 Prometheus 改 → 重提 → ……
- 计划落盘到
.sisyphus/plans/{name}.md,引导用户用/start-work。
4.4.2 不同意图的访谈策略
| Intent | Prometheus 关注点 | 示例提问 |
|---|---|---|
| 重构(Refactoring) | 安全性 - 行为不变 | “什么测试验证当前行为?”“回滚策略?” |
| 从零搭(Build from Scratch) | 发现 - 模式优先 | “代码库里发现模式 X,跟还是偏?” |
| 中等任务(Mid-sized) | 边界 - 精确护栏 | “什么必须不在内?硬性约束?” |
| 架构(Architecture) | 战略 - 长期影响 | “预期寿命?规模需求?” |
4.4.3 推荐模型
| 模型 | 备注 |
|---|---|
| Claude Opus 4.7 | 默认首选,1100 行机械驱动提示词 |
| GPT-5.4 (high) | 自动切换为 121 行原则驱动提示词(isGptModel() 检测) |
| GLM 5 / Gemini 3.1 Pro | 备胎 |
4.4.4 怎么唤出 Prometheus?
- 方式 1:Tab → 选 Prometheus,然后开始描述工作;
- 方式 2:在 Sisyphus 里
@plan "我要重构 auth"。
两者效果一样,前者适合”我现在就是要规划”,后者适合”刚干一半想插一个计划”。
4.5 Metis:缺口分析师(The Gap Analyzer)
4.5.1 角色定位
Metis 在 Prometheus 写计划落盘之前强制介入,作用:
- 找出用户请求里隐藏的意图;
- 找出可能让实现偏的歧义;
- 揪出 AI slop 模式(过度工程、scope creep);
- 找缺失的验收标准;
- 找未被处理的边界情况。
4.5.2 为什么需要 Metis?
计划作者(Prometheus)有”ADHD 工作记忆”——它在脑子里建立了很多关联,但从没写到纸上。Metis 强迫这些隐含知识被外显化。
模型:默认 Claude Opus 4.7,回退 GPT-5.4 (high) → GLM 5 → Kimi K2.5。
4.6 Momus:严苛审查官(The Ruthless Reviewer)
4.6.1 角色定位
Momus 在用户开启”高准确度模式”后才会出场。它按 4 条标准评审计划:
- Clarity(清晰度):每个任务是否说清楚”在哪里能找到实现细节”?
- Verification(可验证性):验收标准是否具体可测?
- Context(上下文充分度):是否提供了 ≥ 90% 充分的上下文,让执行人不必猜超过 10% 的内容?
- Big Picture(大局观):目的、背景、工作流是否清楚?
4.6.2 Momus 只在以下情况说 OKAY
- 100% 文件引用都能验证;
- ≥80% 任务有明确的参考来源;
- ≥90% 任务有具体的验收标准;
- 0 个任务需要对业务逻辑做假设;
- 0 个关键红旗。
REJECTED 时 Prometheus 修补后重提,没有最大重试次数。模型默认 GPT-5.4(xhigh),GPT 派系最严苛的一位。
4.7 Atlas:执行指挥棒(The Conductor)
4.7.1 角色定位
Atlas 像乐队指挥:自己不演奏乐器,只负责让大家配合得完美。
Atlas 能做的:
- 读文件理解上下文;
- 跑命令验证结果;
- 用
lsp_diagnostics检查错误; - grep / glob / ast-grep 搜索。
Atlas 必须委派给子 Agent 的:
- 写文件 / 改代码;
- 修 Bug;
- 写测试;
- Git 提交。
4.7.2 智慧累积(Wisdom Accumulation)
每完成一个任务,Atlas 都会:
- 从子 Agent 的回应中抽取”学到了什么”;
- 分类成 Conventions / Successes / Failures / Gotchas / Commands;
- 把这份”经验”传递给后续所有子 Agent。
笔记本(notepad)目录结构:
.sisyphus/notepads/{plan-name}/
├── learnings.md # 模式、约定、成功做法
├── decisions.md # 架构选择和理由
├── issues.md # 遇到的问题、阻塞、坑
├── verification.md # 测试结果、验证产物
└── problems.md # 未解决问题、技术债
4.7.3 触发方式
/start-work 命令。Atlas 会自动激活,不需要手动 Tab 切。start-work Hook 会做:
- 如果
.sisyphus/boulder.json存在 → RESUME 模式,从断点续作; - 如果不存在 → 找
.sisyphus/plans/中最新计划,新建 boulder.json,从第一项开始。
模型:默认 Claude Sonnet 4.6,回退 Kimi K2.5 → GPT-5.4 (medium) → MiniMax M2.7。
4.8 Sisyphus-Junior:执行小弟(The Task Executor)
4.8.1 角色定位
Sisyphus-Junior 是被 Sisyphus 或 Atlas 调用 task() 时召唤出来的”专属执行 Agent”,特点:
- focused:不能再委派任务(task / call_omo_agent 被禁用);
- disciplined:极度强迫地维护 todo;
- verified:完成前必须通过
lsp_diagnostics; - constrained:READ-ONLY 计划文件,不能改 .sisyphus/plans/。
4.8.2 模型按 Category 决定
Junior 没有固定模型,而是按调用时 category 字段动态选:
visual-engineering→ Gemini 3.1 Pro;ultrabrain→ GPT-5.4 (xhigh);deep→ GPT-5.4 (medium);quick→ GPT-5.4 Mini;- ……
通用 fallback:claude-sonnet-4-6 → kimi-k2.5 → gpt-5.4 (medium) → minimax-m2.7 → big-pickle。
4.8.3 为什么”普通模型”也够用?
因为 Junior 拿到的是:
- 来自 Atlas 的详细任务说明(50–200 行);
- 累积下来的 wisdom;
- 明确的 MUST DO / MUST NOT DO 约束;
- 强制验证要求。
智能在系统里,不在单个 worker 上。
4.8.4 系统提醒:拒绝半途而废
如果 Junior 想”我做完了”但 todo 还有未勾选项,会被 Hook 强行注入:
[SYSTEM REMINDER - TODO CONTINUATION]
You have incomplete todos! Complete ALL before responding:
- [ ] Implement user service ← IN PROGRESS
- [ ] Add validation
- [ ] Write tests
DO NOT respond until all todos are marked completed.
这就是”推石头”机制的代码体现。
4.9 Oracle:架构顾问(The Consultant)
4.9.1 角色定位
Oracle 是 READ-ONLY 高 IQ 顾问:只能读,不能写、不能编辑、不能委派(write / edit / task / call_omo_agent 全部被禁)。
适用:
- 架构决策(”这个模块该不该拆?”);
- 代码评审;
- 复杂调试咨询;
- 不熟悉模式的解读;
- 安全/多系统权衡。
模型:GPT-5.4 (high) 默认;回退 Gemini 3.1 Pro (high) → Claude Opus 4.7 (max) → GLM 5。灵感来自 AmpCode 的 oracle agent。
4.9.2 调用方式
Ask @oracle to review this design and propose an architecture
或在 Sisyphus 计划里通过 call_omo_agent(subagent_type="oracle", prompt=...)。
4.10 Librarian:图书管理员(Docs / OSS)
4.10.1 角色定位
Librarian 做”基于证据的多仓库分析、文档查询、开源实现示例”。READ-ONLY:禁 write / edit / task / call_omo_agent。
适用:
- 不确定的库 API 用法;
- 跨仓库比对实现;
- 找最佳实践(”主流 React hooks 怎么处理 race”);
- 找标准(OAuth 2.1 PKCE / RFC 9728 等)。
模型:默认 GPT-5.4-mini-fast / MiniMax M2.7-highspeed → MiniMax M2.7 → Claude Haiku 4.5 → GPT-5.4-nano。
调用:
Ask @librarian how this is implemented - why does the behavior keep changing?
4.11 Explore:代码勘探者(Codebase Grep)
4.11.1 角色定位
Explore 做”快速代码库勘探 + 上下文 grep”,是 OmO 的检索主力。READ-ONLY:禁 write / edit / task / call_omo_agent。
模型:默认 Grok Code Fast 1(快得离谱)→ MiniMax M2.7-highspeed → MiniMax M2.7 → Claude Haiku 4.5 → GPT-5.4-nano。
调用:
Ask @explore for the policy on this feature
或在 Sisyphus 内部 call_omo_agent(subagent_type="explore", run_in_background=true)。
4.12 Multimodal-Looker:视觉小组
4.12.1 角色定位
视觉/截图/PDF/图表内容分析专家。白名单:read only。
模型:默认 GPT-5.4 (medium) → Kimi K2.5 → GLM-4.6V → GPT-5-Nano。
调用方式独特:通过 look_at(path=...) 工具自动启动,不需要手动 @。
4.13 工具权限速查表
OmO 通过 Hook 严格控制每个 Agent 能调用的工具,下面是关键限制:
| Agent | 限制 |
|---|---|
| oracle | READ-ONLY,禁 write/edit/task/call_omo_agent |
| librarian | 同上 |
| explore | 同上 |
| multimodal-looker | 白名单:仅 read |
| atlas | 禁 task / call_omo_agent(必须只读 + 委派系子 Agent) |
| momus | 禁 write/edit/task |
这套限制把”读”和”写”在物理层面分开,让评审/检索/规划三类只读 Agent 的产出绝对不会污染代码库。
4.14 调用对照速查
下面这张表是日常工作中最常用的”我现在该叫谁”:
| 场景 | 该用谁 | 调用方式 |
|---|---|---|
| 通用复杂任务、犯懒 | Sisyphus + ulw | 在默认会话写 ulw 任务... |
| 多日 / 关键变更,要做战略规划 | Prometheus → Atlas | Tab→Prometheus / @plan,访谈完 /start-work |
| 深度架构推理、跨文件硬调试 | Hephaestus | Tab→Hephaestus |
| 评审一段设计 / 怀疑架构 | Oracle | @oracle |
| 找代码模式、做大范围 grep | Explore | @explore,可后台 |
| 查官方文档 / OSS 实现 | Librarian | @librarian,可后台 |
| 让 AI 看 PDF / 截图 | Multimodal-Looker | look_at(path=...) |
| 已有 Plan,要按部就班执行 | Atlas | /start-work |
| 计划缺口分析(自动) | Metis | Prometheus 自动召唤 |
| 计划严格审查(高准确度) | Momus | 用户启用高准确度时 |
| 单任务执行(系统调度) | Sisyphus-Junior | Sisyphus / Atlas 内部 task() |
4.15 一句话记忆每个 Agent
- Sisyphus:项目经理,把石头推上山。
- Hephaestus:独行匠人,硬骨头交给我。
- Prometheus:访谈式规划师,先想清楚再动手。
- Metis:缺口分析师,把你脑子里的隐含信息抠出来。
- Momus:严苛审稿人,不达标就驳回。
- Atlas:指挥棒,不演奏只协调。
- Sisyphus-Junior:执行小弟,按 Category 上场,绝不偷懒。
- Oracle:架构军师,只读高智商。
- Librarian:图书管理员,文档/OSS 检索。
- Explore:代码勘探者,grep 风暴。
- Multimodal-Looker:视觉之眼,看图像/PDF/图表。
下一章我们要把它们串起来,看 OmO 的三种主线工作流:Ultrawork、Prometheus、Atlas——这才是日常生产里最常用的部分。