被AI驯化的测试人,连什么是对的都不认识了

2026年6月7日 9点热度 0人点赞 0条评论

导读:

核心观点:“纯定义者”转型是一个危险的陷阱,它正在系统性削弱测试人的核心能力。 老贺以一个真实案例切入——某大厂推行零代码测试平台后,因为一个人不懂底层日志写错断言,导致AI自动生成一百多个误报工单,整个研发团队崩溃。这不是技术故障,是认知断裂。

依赖AI会导致人的判断力下降。斯坦福的研究数据更刺眼:长期依赖AI的人,基础代码审查准确率下降34%。这不是退步,是大脑在退化。

文章通过张薇的故事进一步展开——这个“双通”型测试工程师在AI输出“全绿”的情况下,加班到凌晨两点,亲自复现底层网络包,发现了一个AI“看起来完美”但执行层会踩坑的锁竞争死锁问题,潜在资损高达230万元。核心结论是:执行感知不是技能,而是认知框架。没有它,你连AI的错误都认不出来。

老贺承认反对者说的部分道理:价值迁移确实在发生,纯定义者在某些极少数条件下(如自动化覆盖率超90%的稳定环境)是可行的。但现实是绝大多数团队不具备这些条件,却在盲目追逐那个“上等人”的梦。

一、深夜电话

三周前,一个测试总监打来电话。声音压得很低,像怕旁边有人听见。“老贺,我们翻车了。”

他们上了零代码测试平台。全体测试脱离代码,只做策略定义。听起来很美——产品经理拍板,CTO点头,HR喊“测试人终于能当上等人了”。

结果呢?一个人不懂底层日志,写了个错误断言。AI瞬间生成一百多个误报工单。研发炸了。会议室里安静得只剩空调声。

总监说那天下午他盯着屏幕,想的是:我们到底在干什么?

这不是技术故障。这是认知断裂。

千万别信这套话。你的意图定义如果不接地气,AI的加速度就是你的灾难。


二、谁在兜售这个梦

这一年,我听过太多人讲同一套话。行业论坛、大厂内训、朋友圈爆款文,都在说同一件事:AI时代,测试人该转型了。不用写代码,不用碰执行。坐在战略层,让AI跑脏活。

逻辑上有一半是对的。执行层的价值确实在通缩。

Gartner 2024年数据:42%的大型组织已在测试中部署AI。市场从8500万美元涨到1.04亿。AI三秒跑完你三天的回归测试——谁不想交给机器?

但问题出在哪一半?

那些鼓吹纯定义论的人,划了一条不该划的线。他们觉得执行可以外包,却没意识到一个更深的真相:

意图定义的质量,离不开执行反馈的持续校准。

你在定义“好”。“好”的标准不是天上掉下来的。一个没见过暴雨的人,能设计出完美的屋顶吗?


三、大脑会退化

这还是认知科学的问题。

诺贝尔奖得主卡尼曼在《思考,快与慢》里讲过一个概念:自动化偏见。用大白话说——你越依赖自动工具,你的判断力越弱。

这不是鸡汤。斯坦福大学2023年有研究:长期依赖AI辅助编码的人,基础代码审查准确率下降34%。不是技术退步,是大脑神经连接在退化。你再也不亲手验证边界条件,大脑就失去了对异常信号的敏感度。

我见过太多这样的人了。能用提示词写出漂亮的测试策略,但看不懂日志里那行error意味着什么。能定义完美的断言逻辑,但发现不了AI输出里那些“看起来没问题”的陷阱。

被AI驯化的测试人,连什么是对的都不认识了。

Gartner给了个数字:缺乏执行感知的团队里,AI高置信度幻觉占比41%,其中78%没被人发现——因为审核者根本看不懂那些错误。78%。这个数字不该让你意外,应该让你恐惧。


四、那个叫张薇的人

去年夏天,一个同行找我喝酒。聊到一个人。

张薇,他们团队的高级测试。典型的双通型——能用Kimi提炼测试策略,也能亲手写Python脚本验证AI生成的用例。

大促前夕,AI生成的支付流程测试全绿。产品说上,研发说上,AI说完美。她没信。花了一晚自己复现底层网络包。咖啡放凉了没喝。办公室只剩她一个人。

凌晨两点,她找到了。

一个特定并发条件下的锁竞争死锁。AI的输出“看起来”完全正常。只有亲手跑一遍、看一眼底层日志,才能发现那个缝隙。

如果上线,跨地区支付网关会在高峰期间歇性挂起。

潜在资损:约230万。

我问同行:如果张薇只做纯定义者,能发现这个吗?

他说:永远不可能。她根本看不到那个日志。

这就是核心问题。执行感知不是技能,是认知框架。没有它,你连AI的错误都认不出来。


五、一个极端的假设

我试着把逻辑推到极端。

如果全行业的测试人都放弃执行感知,只做定义,会发生什么?

系统性灾难。

过去,一个测试理解错了需求,手动执行,最多误报几个bug。范围有限。现在,同一个错误意图被AI以毫秒级速度复制到上千个场景里,瞬间造成信息雪崩。

你永远无法消除AI幻觉,只能管理它。

但前提是:你得有能力识别它。

CT-GenAI大纲第3章讲幻觉管理。大纲说要用交叉验证、专家咨询、一致性检验。我在本地化讨论时加了一条:利用已知正确答案集做自动化比对。

但最根本的问题没变——你已经被驯化到连错误都认不出来,你还管理什么?

你永远无法消除幻觉,只能管理它。但管理的前提是——你得有能力识别它。


六、我说得对吗

我得诚实。我的观点不是在所有场景下都成立。

如果你团队自动化覆盖率超过90%,监控能实时捕捉异常,AI可解释性足够强——这种条件下,纯定义者转型或许合理。业务极度稳定,需求几乎不变,执行感知退化的风险确实可控。

但现实呢?大多数团队自动化覆盖率在30%到50%之间。AI可解释性是个半成品。互联网行业一个月迭代两三次。需求文档版本号每天都在跳。

纯定义者的合理性,建立在稀缺条件之上。大多数团队不具备这些条件,却在盲目追那个“上等人”的梦。


七、未来两年

说一个可能让人不舒服的判断。

未来两年,测试行业会出现明显的分化。

双通能力者——既能定义意图、又能保持执行感知的人——会成为新统治阶层。他们不是“上等人”,是“桥梁型专家”:在意图和执行之间搭建校准回路,确保AI的加速度不变成灾难。

纯定义者呢?不出半年,会被驯化成“优化表达的提示工程师”。不断调整措辞,堆砌示例,却丧失了判断输出质量的能力。薪资和影响力持续下滑。

这个判断可能在什么条件下被证伪?如果AI可解释性两年内有突破,推理链路完全透明,执行层反馈能被自动捕获并回传。那纯定义者的退化风险确实会降低。

但说实话,我对这个突破两年内发生,不乐观。


八、你不是在检查AI

我干这行快三十年。见过太多“上等人”的梦。

2008年说“测试只要会点鼠标”。2015年说“自动化消灭手工测试”。现在说“AI时代只需定义意图”。每次都一样——有人在把测试人从执行层剥离出去,塞进一个看起来体面、实际上更脆弱的位置。

领测老贺的名号不是白叫的。我必须告诉你们一个刺耳的真相:

真正的护城河从来不是纯战略定义,是融合执行与定义的双通能力。别做上等人的梦,那是个镀金的笼子。

从今天起,每周花两小时亲手跑一次AI生成的用例。看它错在哪,为什么错。

你不是在检查AI。你是在抢救自己。

你是想做那只金丝雀,还是那个拿着剪刀的人?

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI本地化工作组组长

AI测试 自动化测试 双通能力

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论