Goal Coding
不再"一问一答"陪 AI 加班 —— 定义终点,AI 自己闭环跑到完。OpenAI Codex 和 Anthropic Claude Code 几乎同时上线 /goal,标志着 AI 编程从"Vibe Coding"进入"Goal Coding"时代。
Codex 首发
2026-04-30 (CLI 0.128.0)
Claude Code 首发
2026-05 中旬 (v2.1.139+)
已知最长运行
21 小时 / ~9 亿 token
核心能力
自主规划·执行·验证·修复·闭环
01它是什么
Goal Coding 是 AI 编程的范式跃迁:从过去「你说一句,AI 写一段;你说 bug,AI 改一轮」的轮询模式,进入「你定义完成条件,AI 自主规划、写、测、修、验证,直到终点被达成」的闭环模式。
一句话记住它
过去你告诉 AI「做下一步」。现在你告诉它终点在哪。然后合上电脑,去喝咖啡。它自己循环到你定义的终点被达成为止。
这不是 prompt 的延伸,是交互范式的跃迁——从人机轮询到目标委派。核心转变不是「prompt 写多长」,而是「什么叫做完」的定义能力。
02能做什么:规模与案例
以下全部为无人值守、AI 自主闭环的真实案例:
| 案例 | 时长 | Token | 产出 |
|---|---|---|---|
| Derrick Choi · 设计工具 | ~25h | 1300 万 | 3 万行代码,空 repo 从零构建 |
| CSDN 中文社区 | 21h | ~9 亿 | 已知最大规模无人值守 |
| Towards AI | 18h | — | 18 功能完成 14 个(77.8%) |
| Andrew Chen · Mac 驱动 | 14h+ | — | 底层设备驱动,离开后持续迭代 |
| Reddit · 移动端 App | <24h | — | 完整 App 从设计到构建 |
| Roshan · BetterMint | 通宵 | — | 个人理财 App 构建 |
| Claire Vo · Sentry+邮件 | ~5h | — | 清 Sentry 报错 · 3900→68 封邮件 |
✨ 不只写代码
Claire Vo 的案例证明 Goal Coding 不限于编程——清 Sentry 报错、邮件分拣、Linear 任务整理,一切有可验证终点的长任务都能用。
03对产品经理的价值
Goal Coding 改变了 PM 与工程的关系:
1
需求定义即验收标准
Goal Coding 逼迫你把"什么叫做完"定义清楚——这恰好是 PM 的核心能力。你的需求文档里就必须包含可验证的验收条件,AI 直接照着跑。
2
从「催进度」到「看结果」
不用再问"做到哪了"——/goal 跑完自动告诉你完成了什么、没完成什么、为什么。管理成本断崖式下降。
3
PM 也能跑自动化
不仅是代码:整理需求文档、清洗数据、生成报表、邮件分拣——PM 日常的重复性长任务,都可以交给 /goal。
04Codex /goal vs Claude Code /goal
两者机制有本质区别,选对工具事半功倍:
| 维度 | Codex /goal | Claude Code /goal |
|---|---|---|
| 完成判断 | 内置 goal completion 逻辑 | 独立 Evaluator 模型(默认 Haiku) |
| 生命周期 | 一等公民:thread state · pause/resume/clear · budget 管控 | 声明式验收:每轮后 Evaluator 判定 yes/no |
| Token 效率 | 更省(Figma-to-code: 1.5M vs 6.2M) | 推理更强,但消耗更高 |
| SWE-bench | 88.7% (GPT-5.5 Codex) | 64.3% (Opus 4.7 Pro) |
| 并行 Agent | 最多 8 个 subagent | Managed Outcomes / Subagents |
| 最佳场景 | 终端优先、长时间批量执行 | 复杂推理、需独立审查 |
| 中文资源 | 非常丰富(知乎/CSDN/腾讯云) | 较少,以英文为主 |
💡 比喻
Claude Code 像请了个实习生看报告——你说完成了,它信了;Codex 像配了个项目经理——盯预算、盯进度、盯合同。复杂长任务首选 Codex。
05怎么写一个好的 Goal
写好 /goal 本身就是一门技能。模糊的 goal 会让 AI 过早声称"完成"。以下是社区经过大量实践固化的模板:
五段式模板(知乎中文社区)
- 目标描述 — 清晰的成功条件
- 约束条件 — 不能动什么
- 验证方式 — 如何验证完成
- 步骤拆解 — 可被映射成清单
- 中止规则 — 什么情况下停下
六段式结构(X/Twitter 社区 @kloss_xyz)
- Mission(任务目标)
- Ranked uncertainties(排序的不确定性)
- Constraints(约束条件)
- Verifiable done state(可验证的完成状态)
- Stop rules(停止规则)
- Zero ambiguity(零歧义)
示例 Goal
/goal 把 checkout 的 p95 延迟压到 120ms 以下。 约束:现有功能不许回归,不改 API 签名。 验证方式:跑通 p95 基准测试,结果 <120ms。 中止规则:token 预算耗尽或遇到不可自动修复的测试失败。
06局限与边界
✗ 关键边界
- 不适合探索性任务:路径完全未知、没有明确验收标准的任务,Goal Coding 不如人类迭代探索
- Token 成本高:长时间运行消耗巨大(21h 案例消耗 ~9 亿 token),需要设置预算上限
- 目标漂移风险:AI 可能在执行中偏离原始意图,需要精心设计的约束
- 过早"完成":模糊的 goal 容易被 AI 自行判断为"已完成"——定义验收条件是核心挑战
- 对老项目不如新项目:大型既有代码库的 context 膨胀更快,需要配合 harness 和知识库
07进阶技巧
| 技巧 | 说明 |
|---|---|
| .md 文件传参 | 复杂 goal 写进 .md,用 /goal follow instructions.md 执行 |
| 先 Plan 再 /goal | 先用 Plan 模式分析项目、识别风险、获得方案,确认后用 /goal 执行 |
| 混合编排 | Claude Opus 负责思考+审查,Codex /goal 负责长时间执行 |
| 设置 token budget | /goal --tokens 250K ... 控制成本 |
| 拆分子 goal | 大型任务拆为多个较小 goal,便于追踪进度和控制成本 |
08实践笔记
⏳ 待补充 —— 记录每次实际使用 /goal 的 prompt 技巧、运行结果、token 消耗、踩坑与复盘。随用随记。
09真实项目实战
⏳ 待补充 —— 记录在工作项目中用 /goal 的完整案例:什么任务、goal 怎么写的、跑了多久、结果如何、前端/团队怎么接。
10参考来源
- 刘小排:一问一答式的 Vibe Coding 的时代已经结束
- OpenAI Cookbook: Using Goals in Codex
- Claude Code Docs: /goal
- Lenny's Newsletter: Codex Goals — Claire Vo 6-Part Framework
- Towards AI: 18-Hour Codex /goal Experiment
- CSDN: Codex /goal 21h/9亿 token 保姆级教程
- 知乎: Codex /goal 高级技巧(五段式模板)
- VentureBeat: Claude Code Goals — Evaluator 机制详解
- GitHub: jthack/claude-goal 社区实现
- GitHub: win4r/goal-prompt-builder