放弃执行的意图定义者,正在沦为AI的看门人

2026年6月13日 16点热度 0人点赞 0条评论

导读:

危险的认知陷阱:当“定义者”彻底放弃“执行”,他们正在亲手瓦解自己最珍视的“护城河”。

许多高级测试工程师认为自己的价值在于“定义问题”,执行可以完全交给AI。然而,这种脱离实体的“定义”活动,会导致对用户真实行为的感知力急剧下降。张明的故事核心在于,AI生成的测试用例逻辑完美,却漏掉了“用户连续输错密码后会本能地点击找回密码”这一非逻辑、基于肌肉记忆的习惯性操作。这不仅是一个技术漏测,更是一次深刻的认知颠覆——定义者离执行越远,其定义就越容易脱离真实,变成“猜谜”。

AI测试自动化市场虽高速增长,但“以技术为中心”而非“以人为中心”的AI路线,出问题的概率高出1.6倍。AI不仅会适应测试用例,还会适应你“空洞的定义”,形成脱离用户的逻辑闭环。当代码和测试本身都可被AI复刻,真正的护城河已不再是技术本身,而是“品味”——即定义“什么是好”的判断力,以及专有数据、合规认证和深度工作流嵌入这些AI无法采购的人类独有价值。

解决方案:重拾执行。张明团队通过回归“亲手测试”的笨办法,发现了AI报告无法体现的用户体验问题。他定下“每周手动测试30分钟”的规矩,不是为了替代AI,而是为了校准自己的“用户视角”。这篇文章是一记警钟:最危险的不是AI取代人类,而是人类在安逸中自愿放弃了连接真实的执行感,最终沦为AI输出的被动看门人。


定义者,你的护城河正在塌陷

一个AI测试架构师的翻车实录:当执行被AI接管,定义者正在失去什么

张明盯着手机屏幕上那行红字,看了整整十秒。

"用户登录模块崩了,全部回滚。"

高架桥上刹车灯亮成一条红线。后车猛按喇叭,他没听见。手心全是汗——不是因为堵车。

半年前,他刚升任AI测试架构师。部门周会上他说过一句话:"以后我只需要定义问题,执行交给AI。"

这句话,现在像一记耳光甩在脸上。

那个号称"逻辑完美"的AI测试场景,漏掉了一个最致命的操作:用户连续输错三次密码后,会习惯性地点一下"找回密码"按钮。

而张明已经半年没亲手点开过那个App了。

📊 行业背景速览

据MarketsandMarkets数据,AI测试自动化市场将从2025年的88.1亿美元增长到2032年的359.6亿美元,年复合增长率22.3%。但德勤《2026全球人力资本趋势》报告同时警告:59%的组织采取"以技术为中心"的AI路线,出问题的概率是其他组织的1.6倍。[5]

真正的护城河,不是Token的数量,而是AI无法采购的判断力与适应力。

1. 为什么"高级"的定义者最先沦陷

张明当初的决定,不是偷懒。

他有一套计算逻辑:人类测试工程师做一条用例平均耗时45分钟,AI只需要8秒。他一个人的定义能力,理论上可以覆盖十个工程师的产出量。

听起来无懈可击。但在这个周五的晚上,他发现自己犯了一个认知上的根本错误——他把"定义"当成了可以脱离实体的纯粹智力活动。

"我定义了一个完美场景,"他后来在电话里跟我说,声音沙哑,"所有的边界条件、异常流程、状态转换,我都写进了提示词里。AI理解了我的意图,生成了测试数据。但问题是——用户不会按照我定义的完美路径操作。"

你定义得越多,离真实可能越远。当指尖不再触碰代码,定义就变成了猜谜。

这事让我想起2025年参加CT-GenAI大纲讨论时的情景。第2章"面向高效软件测试场景的提示词工程"有个争论:学习目标到底定在K2(理解级别)还是加上动手实验?

我在会上坚持加动手环节:"如果测试工程师只会背定义,面对真实的DeepSeek或通义千问时,根本不知道怎么设计提示词进行测试分析。"

后来一个学员发消息给我:"那堂实验课让我真正理解了'测试AI'和'被AI测试'的区别。"

这句话让我很触动。张明失去的东西,我在这堂课上找到了——不是定义能力本身,而是那种"不对"的直觉。一种只有亲手摸过产品、反复踩过坑才能形成的肌肉记忆。

执行是定义的镜子。没有镜子的定义,只是自言自语。

2. 那些看不见的东西正在流失

事故复盘持续到凌晨两点。

张明把AI生成的测试场景和真实用户行为并排放在屏幕上时,发现了一件事:AI生成的测试,逻辑上挑不出任何毛病。覆盖了所有规定路径,包括错误处理、边界检测、异常中断。

但它漏掉了一个AI永远不能理解的东西——用户的肌肉记忆。

"连续三次输错密码后,用户不是去看错误提示,而是本能地去点'找回密码'。这个动作没有任何逻辑依据,就是习惯。"张明对着屏幕喃喃自语。

这让我想到CTFL 4.0本地化时关于"杀虫剂悖论"的翻译讨论。我坚持保留直译,因为这个词本身就是比喻——杂草会适应农药,bug也会适应同样的测试用例。

现在张明发现了一个更可怕的版本:AI不仅会适应测试用例,还会适应你的定义方式。

如果你的定义脱离实际,AI会基于这种"空洞的定义"生成同样空洞的输出。你审核通过,AI学到了你的通过标准——两个空洞在半空中完成了闭环。

🧠 核心洞察:AI执行悖论

AI不是从用户手机里偷看操作,而是从张明过去提交的、失败的测试报告中,统计出"点击找回密码"与"登录失败"的强关联模式,并将其固化为新定义标准。

——当一个团队的所有人都在办公室里讨论用户习惯,而不是观察用户行为时,他们建立了一个完美的逻辑自洽系统,而这个系统离用户越来越远。

3. 2026年的新发现:AI在悄悄学习你丢失的东西

2026年初,一个行业事件震动了全球软件界:Cloudflare工程师James Anderson用AI在一周内重写了Next.js的核心功能,起名vinext,token费用仅1100美元。Next.js团队十年积累的代码护城河,被AI单枪匹马攻破了。[1]

阮一峰因此提出"测试是新的护城河"。但更深的真相是——当代码可以被AI复刻,测试也可以被AI生成时,真正的护城河到底是什么?[7]

张明的故事给出了一个答案:是"品味"——定义'什么是好'的能力。

行业分析机构Attainment Labs的研究指出,AI时代真正不可复刻的是三样东西:专有数据、合规认证、深度工作流嵌入。代码和测试,都不在其中。[7]

德勤的报告给出了更直观的数据:直接把AI"专家"接入客服流程,不改角色、不改工作流——生产力提升5%;把90%的预算用来重新设计人机协作——生产力提升30%。同样的AI,差了6倍。差别不在技术,在人的判断力。[5]

放弃执行的定义者,最终会沦为AI输出的被动看门人。

4. 重新拿起鼠标的决定

第二天下午,张明开完复盘会后,做了一件事。

他让团队把AI生成的所有回归测试场景打印出来,人手一份。然后他说了一句让所有人愣住的话:

"今天,我们不审核。我们动手。所有人拿着手机,按这些测试场景操作一遍。"

代价是半天的时间和数百万元的回滚费用。但结果触目惊心:

七个核心业务场景中,有三个人类定义+AI执行的组合测试场景,漏掉了用户最朴素的操作习惯。不是AI错了,是定义错了。因为定义者自己已经不知道用户是怎么操作的了。

"我成了办公室里最懂AI,却最不懂用户的人。"张明在总结里写道。

那次之后,他给团队定了一个规矩:每周五下午,所有人必须亲自测试产品30分钟。包括他自己。

"不是去审核AI的测试报告,而是去感受。感受按钮按下去的手感,感受页面切换时的等待,感受那些AI永远不会报告的微妙不爽。"

中世纪经院哲学家依赖《圣经》文本推理神学,而张明依赖AI报告推理用户行为——两者都缺乏实证校准机制,最终都陷入逻辑自洽但经验脱节的困境。

5. 护城河在动态中重建

上周我翻到一个2019年的项目文档。七年过去了,问题完全变了——不是"怎么分自动化与手工",而是"我把执行权交给AI后,我还能保持用户视角吗"?

张明在复盘文档最后写了一段话,我读了三遍:

"我不知道未来定义能力是否能独立于执行而存在。但是我能肯定的是——今天,重新拿起手机测试产品的30分钟,是我离用户最近、也最清醒的30分钟。"

现在,如果你也沉浸在AI自动化的便利中,不妨问自己两个问题:

第一个问题测你的选择:你定义的最后一条测试用例,是你亲手操作的,还是基于一份报告修改的?

第二个问题测你的直觉:今天,你打开过那个正在被你"定义"的App吗?

我听了很多"AI会取代测试工程师"的说法,但张明的故事让我相信:最危险的不是AI取代人类,而是人类彻底放弃执行——成为房间里最懂AI却最不懂用户的那个人。

📋 周五下午30分钟行动清单

打开产品:

找到你半年没碰过的那个App或功能模块

手动执行:

按AI生成的测试场景,自己操作一遍

记录差异:

AI报告 vs 实际体验,哪里不一样?

感受直觉:

哪个操作让你觉得"不对劲"?(这是AI永远不会报告的)

修正定义:

基于亲身体验,重新优化你的提示词

那张打印着测试场景的A4纸,现在还贴在张明工位的隔板上。

我知道你不会把执行交给AI之后就当作工作完成。但也许今天下班前,可以先点开那个你半年没碰过的App,看看它现在的样子——不是为了执行,只是为了知道。

知道一个真实用户可能会怎么按错。

然后,再决定你要定义什么。

现在,关掉这篇文,打开你的App,点一次登录按钮。

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长

专注AI时代的软件测试方法论与实践

AI测试、自动化测试、质量保障、测试工程师、职业护城河、人机协作

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论