放弃执行的意图定义者，正在沦为AI的看门人

2026年6月13日 262点热度 0人点赞 0条评论

导读：

危险的认知陷阱：当“定义者”彻底放弃“执行”，他们正在亲手瓦解自己最珍视的“护城河”。

许多高级测试工程师认为自己的价值在于“定义问题”，执行可以完全交给AI。然而，这种脱离实体的“定义”活动，会导致对用户真实行为的感知力急剧下降。张明的故事核心在于，AI生成的测试用例逻辑完美，却漏掉了“用户连续输错密码后会本能地点击找回密码”这一非逻辑、基于肌肉记忆的习惯性操作。这不仅是一个技术漏测，更是一次深刻的认知颠覆——定义者离执行越远，其定义就越容易脱离真实，变成“猜谜”。

AI测试自动化市场虽高速增长，但“以技术为中心”而非“以人为中心”的AI路线，出问题的概率高出1.6倍。AI不仅会适应测试用例，还会适应你“空洞的定义”，形成脱离用户的逻辑闭环。当代码和测试本身都可被AI复刻，真正的护城河已不再是技术本身，而是“品味”——即定义“什么是好”的判断力，以及专有数据、合规认证和深度工作流嵌入这些AI无法采购的人类独有价值。

解决方案：重拾执行。张明团队通过回归“亲手测试”的笨办法，发现了AI报告无法体现的用户体验问题。他定下“每周手动测试30分钟”的规矩，不是为了替代AI，而是为了校准自己的“用户视角”。这篇文章是一记警钟：最危险的不是AI取代人类，而是人类在安逸中自愿放弃了连接真实的执行感，最终沦为AI输出的被动看门人。

定义者，你的护城河正在塌陷

一个AI测试架构师的翻车实录：当执行被AI接管，定义者正在失去什么

张明盯着手机屏幕上那行红字，看了整整十秒。

"用户登录模块崩了，全部回滚。"

高架桥上刹车灯亮成一条红线。后车猛按喇叭，他没听见。手心全是汗——不是因为堵车。

半年前，他刚升任AI测试架构师。部门周会上他说过一句话："以后我只需要定义问题，执行交给AI。"

这句话，现在像一记耳光甩在脸上。

那个号称"逻辑完美"的AI测试场景，漏掉了一个最致命的操作：用户连续输错三次密码后，会习惯性地点一下"找回密码"按钮。

而张明已经半年没亲手点开过那个App了。

📊 行业背景速览

据MarketsandMarkets数据，AI测试自动化市场将从2025年的88.1亿美元增长到2032年的359.6亿美元，年复合增长率22.3%。但德勤《2026全球人力资本趋势》报告同时警告：59%的组织采取"以技术为中心"的AI路线，出问题的概率是其他组织的1.6倍。[5]

真正的护城河，不是Token的数量，而是AI无法采购的判断力与适应力。

1. 为什么"高级"的定义者最先沦陷

张明当初的决定，不是偷懒。

他有一套计算逻辑：人类测试工程师做一条用例平均耗时45分钟，AI只需要8秒。他一个人的定义能力，理论上可以覆盖十个工程师的产出量。

听起来无懈可击。但在这个周五的晚上，他发现自己犯了一个认知上的根本错误——他把"定义"当成了可以脱离实体的纯粹智力活动。

"我定义了一个完美场景，"他后来在电话里跟我说，声音沙哑，"所有的边界条件、异常流程、状态转换，我都写进了提示词里。AI理解了我的意图，生成了测试数据。但问题是——用户不会按照我定义的完美路径操作。"

你定义得越多，离真实可能越远。当指尖不再触碰代码，定义就变成了猜谜。

这事让我想起2025年参加CT-GenAI大纲讨论时的情景。第2章"面向高效软件测试场景的提示词工程"有个争论：学习目标到底定在K2（理解级别）还是加上动手实验？

我在会上坚持加动手环节："如果测试工程师只会背定义，面对真实的DeepSeek或通义千问时，根本不知道怎么设计提示词进行测试分析。"

后来一个学员发消息给我："那堂实验课让我真正理解了'测试AI'和'被AI测试'的区别。"

这句话让我很触动。张明失去的东西，我在这堂课上找到了——不是定义能力本身，而是那种"不对"的直觉。一种只有亲手摸过产品、反复踩过坑才能形成的肌肉记忆。

执行是定义的镜子。没有镜子的定义，只是自言自语。

2. 那些看不见的东西正在流失

事故复盘持续到凌晨两点。

张明把AI生成的测试场景和真实用户行为并排放在屏幕上时，发现了一件事：AI生成的测试，逻辑上挑不出任何毛病。覆盖了所有规定路径，包括错误处理、边界检测、异常中断。

但它漏掉了一个AI永远不能理解的东西——用户的肌肉记忆。

"连续三次输错密码后，用户不是去看错误提示，而是本能地去点'找回密码'。这个动作没有任何逻辑依据，就是习惯。"张明对着屏幕喃喃自语。

这让我想到CTFL 4.0本地化时关于"杀虫剂悖论"的翻译讨论。我坚持保留直译，因为这个词本身就是比喻——杂草会适应农药，bug也会适应同样的测试用例。

现在张明发现了一个更可怕的版本：AI不仅会适应测试用例，还会适应你的定义方式。

如果你的定义脱离实际，AI会基于这种"空洞的定义"生成同样空洞的输出。你审核通过，AI学到了你的通过标准——两个空洞在半空中完成了闭环。

🧠 核心洞察：AI执行悖论

AI不是从用户手机里偷看操作，而是从张明过去提交的、失败的测试报告中，统计出"点击找回密码"与"登录失败"的强关联模式，并将其固化为新定义标准。

——当一个团队的所有人都在办公室里讨论用户习惯，而不是观察用户行为时，他们建立了一个完美的逻辑自洽系统，而这个系统离用户越来越远。

3. 2026年的新发现：AI在悄悄学习你丢失的东西

2026年初，一个行业事件震动了全球软件界：Cloudflare工程师James Anderson用AI在一周内重写了Next.js的核心功能，起名vinext，token费用仅1100美元。Next.js团队十年积累的代码护城河，被AI单枪匹马攻破了。[1]

阮一峰因此提出"测试是新的护城河"。但更深的真相是——当代码可以被AI复刻，测试也可以被AI生成时，真正的护城河到底是什么？[7]

张明的故事给出了一个答案：是"品味"——定义'什么是好'的能力。

行业分析机构Attainment Labs的研究指出，AI时代真正不可复刻的是三样东西：专有数据、合规认证、深度工作流嵌入。代码和测试，都不在其中。[7]

德勤的报告给出了更直观的数据：直接把AI"专家"接入客服流程，不改角色、不改工作流——生产力提升5%；把90%的预算用来重新设计人机协作——生产力提升30%。同样的AI，差了6倍。差别不在技术，在人的判断力。[5]

放弃执行的定义者，最终会沦为AI输出的被动看门人。

4. 重新拿起鼠标的决定

第二天下午，张明开完复盘会后，做了一件事。

他让团队把AI生成的所有回归测试场景打印出来，人手一份。然后他说了一句让所有人愣住的话：

"今天，我们不审核。我们动手。所有人拿着手机，按这些测试场景操作一遍。"

代价是半天的时间和数百万元的回滚费用。但结果触目惊心：

七个核心业务场景中，有三个人类定义+AI执行的组合测试场景，漏掉了用户最朴素的操作习惯。不是AI错了，是定义错了。因为定义者自己已经不知道用户是怎么操作的了。

"我成了办公室里最懂AI，却最不懂用户的人。"张明在总结里写道。

那次之后，他给团队定了一个规矩：每周五下午，所有人必须亲自测试产品30分钟。包括他自己。

"不是去审核AI的测试报告，而是去感受。感受按钮按下去的手感，感受页面切换时的等待，感受那些AI永远不会报告的微妙不爽。"

中世纪经院哲学家依赖《圣经》文本推理神学，而张明依赖AI报告推理用户行为——两者都缺乏实证校准机制，最终都陷入逻辑自洽但经验脱节的困境。

5. 护城河在动态中重建

上周我翻到一个2019年的项目文档。七年过去了，问题完全变了——不是"怎么分自动化与手工"，而是"我把执行权交给AI后，我还能保持用户视角吗"？

张明在复盘文档最后写了一段话，我读了三遍：

"我不知道未来定义能力是否能独立于执行而存在。但是我能肯定的是——今天，重新拿起手机测试产品的30分钟，是我离用户最近、也最清醒的30分钟。"

现在，如果你也沉浸在AI自动化的便利中，不妨问自己两个问题：

第一个问题测你的选择：你定义的最后一条测试用例，是你亲手操作的，还是基于一份报告修改的？

第二个问题测你的直觉：今天，你打开过那个正在被你"定义"的App吗？

我听了很多"AI会取代测试工程师"的说法，但张明的故事让我相信：最危险的不是AI取代人类，而是人类彻底放弃执行——成为房间里最懂AI却最不懂用户的那个人。

📋 周五下午30分钟行动清单

打开产品：

找到你半年没碰过的那个App或功能模块

手动执行：

按AI生成的测试场景，自己操作一遍

记录差异：

AI报告 vs 实际体验，哪里不一样？

感受直觉：

哪个操作让你觉得"不对劲"？（这是AI永远不会报告的）

修正定义：

基于亲身体验，重新优化你的提示词

那张打印着测试场景的A4纸，现在还贴在张明工位的隔板上。

我知道你不会把执行交给AI之后就当作工作完成。但也许今天下班前，可以先点开那个你半年没碰过的App，看看它现在的样子——不是为了执行，只是为了知道。

知道一个真实用户可能会怎么按错。

然后，再决定你要定义什么。

现在，关掉这篇文，打开你的App，点一次登录按钮。

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长

专注AI时代的软件测试方法论与实践

AI测试、自动化测试、质量保障、测试工程师、职业护城河、人机协作

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可