返回动态

3人5个月0行代码:Harness Engineering揭示的工程真相

原文链接
https://mp.weixin.qq.com/s/USXJgvrNzybJTHfxFkqyMQ
来源公众号
Daniel的学习笔记
作者
Daniel
发布时间
2026-04-03

今年2月,OpenAI发了一篇技术博客,标题平平无奇:《Harness Engineering: Leveraging Codex in an Agent-First World》。内容讲了一件听起来有点疯狂的事:一个由3名工程师组成的团队(后来扩展到7人),在5个月内,用AI生成了超过100万行生产级代码,合并了约1500个Pull Request。

零行手写。

全网在转发,在惊叹,在焦虑。我的问题是另一个方向的:**他们到底在做什么?**

cover

不是AI取代了工程师,是工程师换了工作

有一种叙事是这样的:AI越来越强,人类工程师要被取代了。

这个叙事最近又多了一个证据:看,100万行代码,零手写。

但这个叙事忽略了一件关键的事:这3到7个工程师,5个月里到底在干什么?

他们在驾驭

不是写代码——代码是AI生成的。他们做的是:设计环境,让AI知道该做什么;制定约束,让AI知道什么不该做;构建验证机制,让AI知道什么是对的;建立反馈循环,让AI知道什么时候该停。

这个"环境+约束+验证+反馈",英文叫 Harness。中文有人译成"驾驭系统"。

真正的工程产品,不是那100万行代码。那100万行代码只是输出。真正的产品,是那套让AI能可靠工作的控制系统。

inline-2

三次出现的概念,不是巧合

OpenAI那篇文章里引用了一个有意思的观点:Harness Engineering这个范式,在历史上已经出现过三次。

第一次:1780年代,瓦特的离心调速器。

蒸汽机很强大。但蒸汽机自己不会控制速度——快了会爆炸。瓦特发明了一个机械装置:转速快了,调速器就把阀门关小一点;慢了,就开大一点。这个装置不需要任何人工干预,自己形成了一个反馈回路。

第二次:2010年代,Kubernetes。

服务器集群很强大。但虚拟机自己不知道该调度到哪里、什么时候扩缩容、怎么分配资源。Kubernetes做了一件类似的事:把底层的计算资源抽象成一个可编程的平面,让人类可以用声明式的方式描述想要什么,而不是手动一条条执行指令。

第三次:现在,Harness Engineering。

AI Agent很强大。但Agent自己不知道该先做什么、做到什么程度算对、什么时候该停下来问人。Harness Engineering要解决的,是怎么设计一套系统,让AI Agent能可靠地完成复杂的多步骤任务。

三个案例的本质是一样的:**当你的工具能力超出人工直接控制的范围时,你需要设计一个中间层,让机器能够规模化地做决定,同时保留人类的意图。**

inline-3

这件事为什么让工程师难受

我见过不少工程师聊这件事。反应通常分两类:

第一类:兴奋。 “太好了,以后不用写无聊的代码了。”

第二类:焦虑。 “那我们以后干什么?”

第二类反应是对的。但焦虑的方向错了。

让我把话说清楚一点:Harness Engineering 不是软件工程的终结。它是软件工程的一次升维。

过去几十年,软件工程的成长路径是清晰的:写代码 → 代码评审 → 架构设计 → 技术管理。这条路径的核心能力是"把人类的想法翻译成机器能执行的指令"。

Harness Engineering 需要的能力完全不同:

  • 你要能把模糊的业务意图,拆解成 AI 能理解的任务描述
  • 你要能设计验证机制,判断 AI 的输出是否真的符合预期
  • 你要能建立反馈循环,让 AI 在偏离目标时能自动纠正
  • 你要能在"让 AI 继续做"和"让 AI 停下来问人"之间做正确的取舍

这些事情,本质上是系统设计约束工程,不是传统意义上的编程。

用一个不精确的类比:以前的工程师是步兵团,靠人海战术正面推进。现在的工程师是总参谋部,负责画战场、画指令、画撤退路线。你不能说参谋部的工作比步兵团低级——但你也不能让一个优秀的步兵团士兵直接去当参谋。

inline-1

最让人不安的结论

写到这里,我想提一个不太让人舒服的推论。

如果 Harness Engineering 真的是 AI 落地的瓶颈——那意味着什么?

意味着AI 可能早就足够强了。瓶颈不在模型,在我们在模型外围建的那套系统。

我们一直在等一个更强的 AI。等来等去,模型已经迭代了好几轮,Harness 这件事好像还是没解决。

不是模型不够强。是我们的 Harness 还没建好。

这不是在说 AI 没用。这是在说:**如果你觉得 AI 还差点意思,很可能不是 AI 的问题,是你没想清楚怎么给 AI 设计一个它能可靠工作的环境。**

一个可操作的开始

说远了。回到一个具体的问题:如果你想开始练习 Harness Engineering,从哪里开始?

我的建议是一个反直觉的方法:**拿出一周时间,不写任何代码。**

这一周里,只做三件事:

第一件:定义"done"。 你想用 AI 做什么?做完的标志是什么?怎么判断 AI 做到位了?大多数人在这一步是模糊的——“让它写个功能”。这不是任务描述,这是愿望清单。

第二件:设计反馈机制。 AI 做的每一步,你怎么知道是对的?自动化测试?人工 review?案例验证?很多 AI 生成的代码"看起来对"但跑起来错——因为你没设计好验证环节。

第三件:建环境,而不是给指令。 与其一个 prompt 接着一个 prompt 地调,不如退一步想想:有没有办法让 AI 一开始就在一个更好的上下文里工作?上下文工程,本质上是 Harness 的一部分。

这些事情,技术含量不比写代码低。只是我们的大脑还没建立做这些事情的肌肉记忆。

结语

蒸汽机刚发明的时候,工厂主的第一反应是"太好了,用机器替代人工"。但真正变革性的采纳,不是"机器替代人",而是"工厂重新设计工作流程,机器和人各司其职"。

这个过程花了三十年。

AI 这件事,可能也在走同样的路。我们现在大概在第三年左右的位置。Harness Engineering 不是"有了 AI 之后顺便学的东西"。Harness 才是 AI 时代的操作系统层——它决定了 AI 能发挥多大能力。

先把 Harness 建好。

剩下的,AI 自己会来。


作者Daniel,专注工程实践与 AI 落地的长期观察。