AI 编程框架全景比较 —— 使用场景、优势与选型指南
一、核心认知:不是竞品,是分层叠加
这八个工具(Claude Code、Codex、OpenCode、OpenClaw、Hermes、SpecKit、Superpowers、Paperclip)不是横向竞品,而是从下到上的分层叠加增强关系。它们在产品形态上就不属于同一类——有的是独立 CLI 软件,有的是运行时框架,有的是工具包,有的是插件,有的是管理平台。
1.1 工具总览
| 工具名称 | 开发商/社区 | 产品形态 | 所属层级 | 核心角色定位 | 可独立运行 | 开源协议 |
|---|---|---|---|---|---|---|
| Claude Code | Anthropic | 终端 CLI 编程软件 | 第0层:执行层 | 底层自主编码执行底座 | ✅ | 专有 |
| OpenAI Codex | OpenAI | CLI + 桌面 + Web + IDE | 第0层:执行层 | 终端优先编码 Agent | ✅ | Apache 2.0 |
| OpenCode | 社区驱动 | 终端 CLI 编程工具 | 第0层:执行层 | 模型中立的编码 Agent | ✅ | MIT |
| OpenClaw | 独立基金会 | 个人 Agent 框架 | 第1层:运行时层 | 高权限多通道个人 AI 代理 | 否,需对接大模型 | 开源 |
| Hermes | Nous Research | Agent 运行时框架 | 第1层:运行时层 | 记忆+技能+自动化增强 | 否,需对接大模型 | 开源 |
| SpecKit | GitHub 官方 | 规格工具包 | 第2层:规范层 | 需求标准化,单一事实源 | 否,需配合编码 Agent | 开源 |
| Superpowers | 社区 | 技能插件集 | 第2层:规范层 | 执行纪律约束 | 否,需加载到 Agent | 开源 |
| Paperclip | 社区 | 多 Agent 管理平台 | 第3层:治理层 | 多 Agent 统一调度治理 | ✅(Web 应用) | 开源 |
1.2 关键区分:三条赛道
在比较之前,先把工具归入正确的赛道:
赛道一:编码执行工具(谁写代码) ├── Claude Code — Anthropic 嫡系,专有 ├── OpenAI Codex — OpenAI 嫡系,开源 └── OpenCode — 社区驱动,模型中立(75+ 提供商) 赛道二:个人 Agent 运行时(谁攒经验、跑后台) ├── Hermes — 偏编码场景的记忆+技能,三层记忆体系 └── OpenClaw — 偏全能管家,50+ 消息通道,高系统权限 赛道三:规范与治理(谁定标准、管团队) ├── SpecKit — 需求规格,单一事实源 ├── Superpowers — 执行纪律,流程护栏 └── Paperclip — 多 Agent 调度,预算+权限+审计同一赛道内才有竞争关系,跨赛道是比较职责差异。
二、四层标准分层架构
Agent 工具链和后端架构一样——分层解耦、按需叠加、能力互补。不是层数越多越高级,刚好匹配项目的约束强度,才是最优解。
2.1 演进逻辑
最早:只用原生编码工具 → 解决"能不能写代码" ↓ 后来:加了运行时层 → 解决"长期项目反复同步上下文成本太高" ↓ 再后来:加了规范纪律层 → 解决"AI 写的代码质量不可控、多人协作容易失焦" ↓ 最后:加了编排治理层 → 解决"项目和 Agent 数量上来后的规模化管理问题"2.2 四层职责
| 层级 | 核心问题 | 代表工具 | 判断标准 |
|---|---|---|---|
| 第0层:执行层 | “代码能不能写出来” | Claude Code / Codex / OpenCode | 单任务执行效率 |
| 第1层:运行时层 | “长期开发能不能提效” | Hermes / OpenClaw | 记忆+自动化能力 |
| 第2层:规范层 | “写出来的东西能不能达标” | SpecKit + Superpowers | 质量与对齐能力 |
| 第3层:治理层 | “多项目多团队能不能管好” | Paperclip | 规模化管控能力 |
2.3 两条关键回路
- 经验沉淀回路:下层执行结果 → 沉淀回运行时层(记忆/技能)。没有这条回路,每次执行都是从零开始。
- 校验回退回路:校验失败 → 回退到执行环节重新修复。没有这条回路,规范和纪律形同虚设。
三、赛道一:编码执行工具深度对比
三个工具同属执行层,存在直接竞争关系。选哪个主要取决于你的模型生态偏好和开源需求。
3.1 功能对比
| 维度 | Claude Code | OpenAI Codex | OpenCode |
|---|---|---|---|
| 开发商 | Anthropic | OpenAI | 社区驱动 |
| 发布时间 | 2024 | 2025 年 4 月 | 2025 年 6 月 |
| 开源 | ❌ 专有 | ✅ Apache 2.0 | ✅ MIT |
| 模型 | 仅 Claude 系列 | 仅 GPT 系列 | 75+ 提供商 |
| 平台 | CLI | CLI + 桌面 + Web + IDE | CLI |
| 运行模式 | 直接执行 | Suggest / Auto-edit / Full-auto 三种 | Plan / Build 双模式 |
| GitHub Stars | 专有(无公开仓库) | ~90,000 | ~172,000 |
| 周活用户 | ~42 万(2026 初) | 500 万+ | 650 万–800 万月活 |
| 多 Agent 编排 | 有限 | ✅ 并行 Agent + Worktree 隔离 | ✅ 5 角色 Agent 体系 |
| LSP 集成 | ❌ | ❌ | ✅ 30+ 语言服务器 |
| 安装方式 | npm | npm + 桌面应用 | 7+ 种(Shell/Brew/npm/Docker 等) |
3.2 选型建议
| 你的情况 | 推荐 | 原因 |
|---|---|---|
| 深度 Anthropic 生态用户 | Claude Code | 原生集成、无兼容层损耗 |
| 深度 OpenAI 生态用户 | Codex | 多端覆盖、GPT 模型最优适配 |
| 需要多模型灵活切换 | OpenCode | 75+ 提供商,不同任务用不同模型 |
| 不想被任何供应商锁定 | OpenCode | MIT 开源,社区驱动 |
| 需要桌面应用 + IDE 集成 | Codex | 唯一覆盖 CLI+桌面+Web+IDE 的平台 |
| 追求最小安装成本 | Claude Code或Codex | 一条 npm 命令即可 |
| 需要 LSP 代码智能 | OpenCode | 内置 30+ 语言服务器 |
3.3 什么时候只用执行层工具就够了?
判断标准(三点全满足):
- 任务生命周期短,未来不会反复迭代
- 单人执行,不需要多人对齐标准
- 没有强质量、强审计要求
典型场景:临时调试、单次 Bug 修复、小功能开发、快速原型验证
警示:改个单行 Bug 也要开全套框架,工具启动和上下文准备的时间已经超过修复本身——本末倒置。架构的克制,很多时候比加功能更考验水平。
四、赛道二:个人 Agent 运行时深度对比
Hermes 和 OpenClaw 同属运行时层,但定位和权限差异巨大。
4.1 功能对比
| 维度 | Hermes | OpenClaw |
|---|---|---|
| 定位 | 编码场景的个人 Agent 助理 | 全能型高权限个人 AI 管家 |
| 创建者 | Nous Research | Peter Steinberger(2026.2 加入 OpenAI) |
| 记忆体系 | 三层结构化记忆(核心置顶 + 检索 + 技能化) | SOUL.md + MEMORY.md 文件化记忆 |
| 消息通道 | CLI、Telegram、Slack | 50+ 通道(WhatsApp、Telegram、Discord、Slack、Signal、iMessage、WeChat…) |
| 系统权限 | 通过执行工具间接操作 | Root 级系统权限(Shell、文件、浏览器、邮件) |
| 技能生态 | 内置学习闭环 | ClawHub:5,700+ 社区技能(⚠️ 含恶意技能) |
| 编码能力 | 依赖 Claude Code 等底座 | 通过 Claw Orchestrator 编排多引擎 |
| 安全风险 | 低(本地部署、权限可控) | 极高(CVE 8.8、135K+ 暴露实例、800+ 恶意技能) |
| GitHub Stars | 相对小众 | 285,000+(GitHub 历史最高) |
| 最适合 | 开发者长期编码项目 | 技术极客的全能生活/工作管家 |
4.2 选型建议
| 你的情况 | 推荐 | 原因 |
|---|---|---|
| 专注编码场景的记忆和自动化 | Hermes | 为编码优化,三层记忆更结构化 |
| 需要全能生活管家(消息+邮件+系统操作) | OpenClaw | 50+ 通道,真正的操作系统级 Agent |
| 安全意识强,不能接受高风险 | Hermes | 权限可控,无暴露风险 |
| 追求社区热度和扩展性 | OpenClaw | 史上最高星标,生态极度活跃 |
| 非技术用户 | 不建议 OpenClaw | 安全配置复杂,误配后果严重 |
4.3 什么时候加运行时层?
判断标准(满足任意两条):
- 同一项目长期维护,反复回头修改
- 每次新开会话都要重复解释项目背景、编码习惯
- 需要沉淀可复用经验、技能
- 需要后台定时自动任务
- 需要多端(手机/其他设备)触达 Agent
4.4 运行时层常见陷阱
| 陷阱 | 表现 | 应对 |
|---|---|---|
| 记忆膨胀 | 什么信息都往记忆塞,过期规则和当前规则混淆 | 每月清理核心记忆,只保留项目结构+长期约定+稳定经验 |
| 多人记忆冲突 | 6 个人各用各的 Hermes,接口定义、异常码各搞一套 | 多人协作必须补 SpecKit 统一需求标准 |
| 安全暴露 | OpenClaw 默认绑定 0.0.0.0 无认证,实例暴露公网 | 务必改 127.0.0.1 + 启用认证 + 审查技能来源 |
五、赛道三:规范与治理层深度对比
5.1 SpecKit vs Superpowers(规范层内部)
| 维度 | SpecKit | Superpowers |
|---|---|---|
| 管什么 | “做什么、做成什么样” | “怎么做、按什么流程做” |
| 作用时机 | 事前(开发前定标准) | 事中(开发中卡流程) |
| 约束类型 | 硬约束(lint 校验拦截) | 软约束(触发式引导) |
| 类比 | 施工图 | 监理 |
| 单用短板 | 规格写得再好,Agent 执行时可能偷工减料 | 纪律有了,但多人没统一需求标准 |
| 搭配效果 | 一个防需求漂移 | 一个防执行走样 |
5.2 什么时候加规范层?
加 SpecKit 的判断标准:
- 多人协作,需要统一需求标准
- 有合规审计、需求追溯需求
- 需求边界复杂、容易漂移
加 Superpowers 的判断标准:
- 需要守住 TDD、评审、自测等质量底线
- 不想上重型规范,但质量不能全靠模型自觉
- 小团队协作,需要统一的执行纪律
分级策略(关键):
临时任务/单行修复 → 只用执行层工具 + 变更说明 ↓ 复杂度上升 中小型功能迭代 → Superpowers 守质量 + minimal/light Spec ↓ 影响面变大 核心模块/公共接口 → light Spec + Superpowers ↓ 交付要求提高 大型交付/强合规 → full Spec + Superpowers + 审计留痕5.3 什么时候加治理层(Paperclip)?
三个信号,满足两个以上再考虑:
| 信号 | 具体表现 |
|---|---|
| 项目数量 > 5 | 人工同步进度和统计成本已明显上升 |
| Agent 角色 > 3 种 | 需要分权限、分职责协作 |
| 有明确治理需求 | 预算管控、权限隔离、审计追溯是刚需 |
反例警示:有团队两个人两个项目搭 Paperclip,每周花时间清日志、调权限、看任务状态,写业务的时间反而被挤掉。后来下掉平台改成 Claude Code + Hermes + Superpowers,交付节奏反而快了。
5.4 Paperclip vs LangGraph
| 维度 | LangGraph | Paperclip |
|---|---|---|
| 产品形态 | 代码级开发框架 | 产品化管理平台 |
| 面向用户 | 开发者 | 团队管理者 |
| 核心能力 | 图编排、状态机、工作流 | 组织、调度、预算、权限、审计 |
| 灵活度 | 高,可深度定制 | 相对有限,开箱即用 |
| 治理能力 | 需自己搭建(界面、权限、审计) | 开箱自带 |
| 关注点 | “怎么编排” | “怎么治理” |
很多团队两者一起用:底层用 LangGraph 保证灵活度,上层用 Paperclip 统一治理。
六、五类标准组合方案
分层是理论,落地到具体项目,社区和行业已经踩坑踩出了五类标准组合。
组合一:轻量执行 —— 单执行工具
Claude Code / Codex / OpenCode(任选其一)| 维度 | 说明 |
|---|---|
| 适用场景 | 临时任务、Bug 修复、快速原型、一次性需求 |
| 核心收益 | 最轻、最快、零额外成本 |
| 主要代价 | 无记忆、无纪律、无治理——全靠人 |
| 判断标准 | 任务短 + 单人 + 无质量/审计要求 |
组合二:基础效率 —— 执行工具 + Hermes
Claude Code(或 Codex / OpenCode)+ Hermes| 维度 | 说明 |
|---|---|
| 适用场景 | 单人长期项目、个人副业、自动化运维 |
| 核心收益 | 少讲重复上下文,经验能沉淀,越用越快 |
| 主要代价 | 缺少工程纪律,质量靠个人兜底 |
| 最大短板 | 缺工程约束,AI 跳测试、省评审都靠模型自觉 |
| 典型风险 | 多人协作时记忆各自为政,接口对不上;记忆膨胀 |
组合三:全能管家 —— 执行工具 + OpenClaw
Claude Code(或 Codex / OpenCode)+ OpenClaw + Claw Orchestrator| 维度 | 说明 |
|---|---|
| 适用场景 | 技术极客的全能工作/生活 Agent、多设备多端触达 |
| 核心收益 | 50+ 通道随时下发任务、系统级操作、多引擎编码编排 |
| 主要代价 | 安全风险极高,配置和审查成本不低 |
| 最大短板 | 不适合编码专注场景(太重),不适合非技术用户(安全门槛高) |
| 与组合二的区别 | OpenClaw 偏全能管家,Hermes 偏编码助理。编码为主选 Hermes,全场景覆盖选 OpenClaw |
组合四:规范交付 —— 执行工具 + SpecKit + Superpowers
Claude Code(或 Codex / OpenCode)+ SpecKit + Superpowers| 维度 | 说明 |
|---|---|
| 适用场景 | 企业级交付、金融/政企、强合规项目 |
| 核心收益 | 需求和执行都被锁住,返工扯皮明显减少 |
| 主要代价 | 流程更重,Token 和沟通成本上升 |
| 分级策略 | 核心模块全量 Spec,边缘模块轻量模板,Bug 修复靠 Superpowers 守底线 |
| 最大价值 | 出了问题能追溯:哪条需求 → 哪段实现 → 哪次校验出了偏差 |
为什么 SpecKit 和 Superpowers 要一起上?
- 只上 SpecKit:规格写得再好,Agent 执行时偷工减料、跳测试,交付质量还是不稳
- 只上 Superpowers:纪律有了,但多人协作没统一需求标准,各理解各的
- 企业级交付要的是确定性,不是"可能做好"。需求锁和执行锁一道都不能少
组合五:平台治理 —— Paperclip + 下层任意链路
Paperclip + 下层按需组合 ├── 轻量项目:Hermes + Claude Code ├── 规范项目:SpecKit + Superpowers + Claude Code └── 全能项目:OpenClaw + Claw Orchestrator| 维度 | 说明 |
|---|---|
| 适用场景 | 多项目多团队、Agent 规模化运营 |
| 核心收益 | 预算、权限、审计统一放到台面上管 |
| 主要代价 | 部署和运维最重,小团队容易降效 |
| 分层治理 | 内部工具走轻量流,核心系统走规范流,平台统一管治理 |
| 上线前提 | 治理收益 > 平台成本(永远先算这笔账) |
七、工具能力全景矩阵
7.1 核心能力覆盖
| 能力 | Claude Code | Codex | OpenCode | Hermes | OpenClaw | SpecKit | Superpowers | Paperclip |
|---|---|---|---|---|---|---|---|---|
| 直接写代码 | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| 多模型切换 | ❌ | ❌ | ✅ 75+ | — | — | — | — | — |
| 跨会话记忆 | ❌ | ❌ | ❌ | ✅ | ✅ | ❌ | ❌ | ❌ |
| 多消息通道 | ❌ | ❌ | ❌ | 少量 | ✅ 50+ | ❌ | ❌ | ❌ |
| 系统级操作 | ✅ | ✅ | ✅ | 间接 | ✅ Root | ❌ | ❌ | ❌ |
| 需求规格管理 | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ | ❌ |
| TDD/评审纪律 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ | ❌ |
| 多 Agent 编排 | 有限 | ✅ | ✅ 5角色 | ❌ | ✅(Orch) | ❌ | ❌ | ✅ |
| 预算管控 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
| 权限隔离 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✅ |
| 审计追溯 | ❌ | ❌ | ❌ | ❌ | ❌ | ✅(需求) | ❌ | ✅(全链路) |
| 后台自动化 | ❌ | ❌ | ❌ | ✅ | ✅ | ❌ | ❌ | ✅ |
| Plan/Build 分离 | ❌ | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ | ❌ |
| LSP 代码智能 | ❌ | ❌ | ✅ 30+ | ❌ | ❌ | ❌ | ❌ | ❌ |
| 独立运行 | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ | ✅ |
7.2 核心定位一句话
| 工具 | 通俗类比 | 一句话总结 |
|---|---|---|
| Claude Code | 干活的程序员(Anthropic 籍) | 底层执行底座,所有上层工具最终都靠它落地 |
| OpenAI Codex | 干活的程序员(OpenAI 籍) | Claude Code 最强竞品,多端覆盖 + 灵活运行模式 |
| OpenCode | 干活的程序员(自由职业者) | 模型中立的开源之选,75+ 模型任意切换 |
| Hermes | 程序员的私人助理 | 给编码 Agent 加记忆加自动化加技能沉淀 |
| OpenClaw | 全能 AI 管家 | 史上最强个人 Agent 框架,50+ 通道 + 系统级操作 |
| SpecKit | 产品 + 需求分析师 | 管"做什么",需求规格的单一事实源 |
| Superpowers | 技术主管 | 管"怎么做",TDD/评审/调试纪律护栏 |
| Paperclip | 公司管理体系 | 管"团队怎么运作",多项目统一调度治理 |
八、场景化选型决策
8.1 决策树
1. 先选执行层(三选一或混用) ├── Anthropic 生态深度用户 → Claude Code ├── OpenAI 生态深度用户 → OpenAI Codex └── 需要模型自由 + 开源 → OpenCode 2. 再看要不要加运行时层 ├── 单人长期项目、编码为主 → + Hermes ├── 需要全能管家、多端触达 → + OpenClaw(⚠️注意安全) └── 临时/一次性任务 → 不加运行时层 3. 再看要不要加规范层 ├── 需求容易跑偏 → + SpecKit(分级使用) ├── 质量老出问题 → + Superpowers ├── 两者都缺 → + SpecKit + Superpowers └── 单人简单项目 → 不加规范层 4. 最后看要不要加治理层 ├── 项目>5 且角色>3 且有治理需求 → + Paperclip └── 规模未到 → 不加,省下运维成本8.2 按团队规模推荐
| 团队规模 | 推荐组合 | 核心理由 |
|---|---|---|
| 1 人,临时任务 | 单执行工具 | 最轻,打开就用 |
| 1 人,长期项目 | 执行工具 + Hermes | 记忆和自动化提效 |
| 1 人,全能管家 | 执行工具 + OpenClaw | 多端触达,生活+工作一体 |
| 3–5 人小团队 | 执行工具 + Hermes + Superpowers | 保效率也保质量底线 |
| 5–15 人团队 | 执行工具 + SpecKit(轻量) + Superpowers | 统一需求标准,规范执行 |
| 15 人+ | 执行工具 + SpecKit(全量) + Superpowers | 全线规范化 |
| 多团队多项目 | Paperclip + 下层按需组合 | 规模化治理 |
8.3 按项目类型推荐
| 项目类型 | 推荐组合 | 说明 |
|---|---|---|
| 快速原型验证 | 单执行工具 | 速度优先,不要流程包袱 |
| 个人开源项目 | OpenCode + Hermes | 开源匹配开源,模型灵活省钱 |
| 内部工具/后台 | 执行工具 + Hermes + Superpowers | 保质量底线,不需要太重 |
| 商业化 SaaS | 执行工具 + SpecKit(轻量) + Superpowers | 有交付标准,但不需要全量 |
| 金融/政企系统 | 执行工具 + SpecKit(全量) + Superpowers + Paperclip | 合规、审计、追溯全链条 |
| 多产品线平台 | Paperclip + 分层执行链路 | 不同产品线不同执行策略 |
8.4 成本四维度评估
选型时不能只看工具成本,要把四类成本都纳入考量:
| 成本类型 | 说明 | 举例 |
|---|---|---|
| Token 成本 | 每层框架都会增加 Token 消耗 | SpecKit 全量模板生成的文档本身就是 Token;多 Agent 协作增加多轮对话 |
| 部署成本 | 本地工具低,平台级需服务器和数据库 | Claude Code 一条 npm 命令 vs Paperclip 需要 Docker + 数据库 |
| 维护成本 | 记忆管理、模板维护、平台运维的持续投入 | Hermes 记忆需要定期清理;OpenClaw 需要安全审查技能 |
| 返工成本 | 不上规范导致的需求返工、Bug 修复 | 省了 SpecKit 的 Token 钱,花了更多人肉对齐和扯皮时间 |
常见误区:很多人只盯着 Token 成本和部署成本,最后省了工具钱,花了更多人肉对齐和返工时间。
九、选型三大原则
原则一:先分层级,不跨维度比强弱
不同层级分工不同,没有"谁更强"的说法,只有职责差异。
- ❌ 错误:拿 Claude Code 和 Paperclip 比谁厉害,拿 OpenClaw 和 SpecKit 比谁好用
- ✅ 正确:先划清层级(执行层 → 运行时层 → 规范层 → 治理层),再看场景需要哪一层
原则二:约束定轻重,不脱离场景谈优劣
工具链没有绝对的好坏,只有和项目约束匹配不匹配。
- 合规要求越高、协作人数越多、项目生命周期越长 → 工具链越"重"
- 单人项目、快速验证、一次性需求 → 尽量往"轻"了走
网上总有人争 Hermes 好还是 SpecKit 好,本质都是站在自己的场景自说自话。做个人副业的觉得 SpecKit 太重冗余,做金融交付的觉得 Hermes 太野没保障——两边都没错,错的是脱离场景谈好坏。
原则三:按需叠加,不一上来就堆全套
正确的做法永远从最简方案开始:
原生执行工具 → 不够用加运行时层 → 质量出问题补纪律技能 → 协作乱了加规范层 → 项目多到管不过来再上编排平台太多团队选型一上来就追求一步到位,规范、编排、治理全套堆满。结果项目没那么复杂,大半功能用不上,维护成本高得离谱,折腾半年又全拆掉。缺什么补什么,不是先把东西备齐等着落灰。
十、选型里最容易踩的坑
坑 1:跨层级比较
“Superpowers 和 Hermes 哪个写代码厉害?”——Superpowers 根本不写代码,Hermes 也不写。把不同层级的工具放在同一张桌子上比强弱,结论从根上就错。
坑 2:小需求上重流程
改个单行 Bug 也要走 SpecKit 全量流程,规格、计划、任务拆分一套下来,修复时间比 Bug 本身长十倍。工具的流程成本必须小于它省下的返工成本。
坑 3:团队没到规模就上治理平台
两个人两个项目搭 Paperclip,每周维护平台的时间比写业务还多。治理收益 > 平台成本,这是唯一判断标准。
坑 4:忽略记忆治理
Hermes 或 OpenClaw 的记忆不是越满越好。什么信息都往里塞,过期信息和新信息混在一起,Agent 可能把废弃逻辑又拿出来用。有界记忆,用容量换稳定性。建议每月清理。
坑 5:安全配置忽视
OpenClaw 默认绑定0.0.0.0无认证,全球已有 135,000+ 暴露实例,约 15,000 可被远程利用。ClawHub 中发现 800+ 恶意技能。高权限工具必须搭配高安全意识。
坑 6:只看单个工具成本,不看组合成本
省钱选了便宜模型 + 跳过了规范层,结果需求扯皮、Bug 返工、联调对齐的成本远超省下的 Token 钱。成本要从全链条看,不能只看一个环节。
十一、总结
AI 编程框架选型不是挑最强工具,而是看当前场景缺哪层能力。约束弱就轻装上阵,约束强才逐层加治理。
从下到上的完整工具链:
┌─────────────────┐ │ Paperclip │ ← 治理层:多项目多Agent统一管控 └───────┬─────────┘ │ ┌──────────────────┼──────────────────┐ ↓ ↓ ↓ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ SpecKit │ │ Superpowers │ │ 其他规范 │ ← 规范层 │ (需求规格) │ │ (执行纪律) │ │ 工具 │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ └──────────────────┼──────────────────┘ ↓ ┌──────────────────┼──────────────────┐ ↓ ↓ ↓ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Hermes │ │ OpenClaw │ │ 其他运行时 │ ← 运行时层 │ (编码助理) │ │ (全能管家) │ │ 框架 │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ └──────────────────┼──────────────────┘ ↓ ┌──────────────────┼──────────────────┐ ↓ ↓ ↓ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Claude Code │ │ OpenAI Codex│ │ OpenCode │ ← 执行层 │ (Anthropic) │ │ (OpenAI) │ │ (75+模型) │ └─────────────┘ └─────────────┘ └─────────────┘缺哪一层补哪一层,不是选一个就排除其他。