被AI驯化的测试人，连什么是对的都不认识了

2026年6月7日 285点热度 0人点赞 0条评论

导读：

核心观点：“纯定义者”转型是一个危险的陷阱，它正在系统性削弱测试人的核心能力。 老贺以一个真实案例切入——某大厂推行零代码测试平台后，因为一个人不懂底层日志写错断言，导致AI自动生成一百多个误报工单，整个研发团队崩溃。这不是技术故障，是认知断裂。

依赖AI会导致人的判断力下降。斯坦福的研究数据更刺眼：长期依赖AI的人，基础代码审查准确率下降34%。这不是退步，是大脑在退化。

文章通过张薇的故事进一步展开——这个“双通”型测试工程师在AI输出“全绿”的情况下，加班到凌晨两点，亲自复现底层网络包，发现了一个AI“看起来完美”但执行层会踩坑的锁竞争死锁问题，潜在资损高达230万元。核心结论是：执行感知不是技能，而是认知框架。没有它，你连AI的错误都认不出来。

老贺承认反对者说的部分道理：价值迁移确实在发生，纯定义者在某些极少数条件下（如自动化覆盖率超90%的稳定环境）是可行的。但现实是绝大多数团队不具备这些条件，却在盲目追逐那个“上等人”的梦。

一、深夜电话

三周前，一个测试总监打来电话。声音压得很低，像怕旁边有人听见。“老贺，我们翻车了。”

他们上了零代码测试平台。全体测试脱离代码，只做策略定义。听起来很美——产品经理拍板，CTO点头，HR喊“测试人终于能当上等人了”。

结果呢？一个人不懂底层日志，写了个错误断言。AI瞬间生成一百多个误报工单。研发炸了。会议室里安静得只剩空调声。

总监说那天下午他盯着屏幕，想的是：我们到底在干什么？

这不是技术故障。这是认知断裂。

千万别信这套话。你的意图定义如果不接地气，AI的加速度就是你的灾难。

二、谁在兜售这个梦

这一年，我听过太多人讲同一套话。行业论坛、大厂内训、朋友圈爆款文，都在说同一件事：AI时代，测试人该转型了。不用写代码，不用碰执行。坐在战略层，让AI跑脏活。

逻辑上有一半是对的。执行层的价值确实在通缩。

Gartner 2024年数据：42%的大型组织已在测试中部署AI。市场从8500万美元涨到1.04亿。AI三秒跑完你三天的回归测试——谁不想交给机器？

但问题出在哪一半？

那些鼓吹纯定义论的人，划了一条不该划的线。他们觉得执行可以外包，却没意识到一个更深的真相：

意图定义的质量，离不开执行反馈的持续校准。

你在定义“好”。“好”的标准不是天上掉下来的。一个没见过暴雨的人，能设计出完美的屋顶吗？

三、大脑会退化

这还是认知科学的问题。

诺贝尔奖得主卡尼曼在《思考，快与慢》里讲过一个概念：自动化偏见。用大白话说——你越依赖自动工具，你的判断力越弱。

这不是鸡汤。斯坦福大学2023年有研究：长期依赖AI辅助编码的人，基础代码审查准确率下降34%。不是技术退步，是大脑神经连接在退化。你再也不亲手验证边界条件，大脑就失去了对异常信号的敏感度。

我见过太多这样的人了。能用提示词写出漂亮的测试策略，但看不懂日志里那行error意味着什么。能定义完美的断言逻辑，但发现不了AI输出里那些“看起来没问题”的陷阱。

被AI驯化的测试人，连什么是对的都不认识了。

Gartner给了个数字：缺乏执行感知的团队里，AI高置信度幻觉占比41%，其中78%没被人发现——因为审核者根本看不懂那些错误。78%。这个数字不该让你意外，应该让你恐惧。

四、那个叫张薇的人

去年夏天，一个同行找我喝酒。聊到一个人。

张薇，他们团队的高级测试。典型的双通型——能用Kimi提炼测试策略，也能亲手写Python脚本验证AI生成的用例。

大促前夕，AI生成的支付流程测试全绿。产品说上，研发说上，AI说完美。她没信。花了一晚自己复现底层网络包。咖啡放凉了没喝。办公室只剩她一个人。

凌晨两点，她找到了。

一个特定并发条件下的锁竞争死锁。AI的输出“看起来”完全正常。只有亲手跑一遍、看一眼底层日志，才能发现那个缝隙。

如果上线，跨地区支付网关会在高峰期间歇性挂起。

潜在资损：约230万。

我问同行：如果张薇只做纯定义者，能发现这个吗？

他说：永远不可能。她根本看不到那个日志。

这就是核心问题。执行感知不是技能，是认知框架。没有它，你连AI的错误都认不出来。

五、一个极端的假设

我试着把逻辑推到极端。

如果全行业的测试人都放弃执行感知，只做定义，会发生什么？

系统性灾难。

过去，一个测试理解错了需求，手动执行，最多误报几个bug。范围有限。现在，同一个错误意图被AI以毫秒级速度复制到上千个场景里，瞬间造成信息雪崩。

你永远无法消除AI幻觉，只能管理它。

但前提是：你得有能力识别它。

CT-GenAI大纲第3章讲幻觉管理。大纲说要用交叉验证、专家咨询、一致性检验。我在本地化讨论时加了一条：利用已知正确答案集做自动化比对。

但最根本的问题没变——你已经被驯化到连错误都认不出来，你还管理什么？

你永远无法消除幻觉，只能管理它。但管理的前提是——你得有能力识别它。

六、我说得对吗

我得诚实。我的观点不是在所有场景下都成立。

如果你团队自动化覆盖率超过90%，监控能实时捕捉异常，AI可解释性足够强——这种条件下，纯定义者转型或许合理。业务极度稳定，需求几乎不变，执行感知退化的风险确实可控。

但现实呢？大多数团队自动化覆盖率在30%到50%之间。AI可解释性是个半成品。互联网行业一个月迭代两三次。需求文档版本号每天都在跳。

纯定义者的合理性，建立在稀缺条件之上。大多数团队不具备这些条件，却在盲目追那个“上等人”的梦。

七、未来两年

说一个可能让人不舒服的判断。

未来两年，测试行业会出现明显的分化。

双通能力者——既能定义意图、又能保持执行感知的人——会成为新统治阶层。他们不是“上等人”，是“桥梁型专家”：在意图和执行之间搭建校准回路，确保AI的加速度不变成灾难。

纯定义者呢？不出半年，会被驯化成“优化表达的提示工程师”。不断调整措辞，堆砌示例，却丧失了判断输出质量的能力。薪资和影响力持续下滑。

这个判断可能在什么条件下被证伪？如果AI可解释性两年内有突破，推理链路完全透明，执行层反馈能被自动捕获并回传。那纯定义者的退化风险确实会降低。

但说实话，我对这个突破两年内发生，不乐观。

八、你不是在检查AI

我干这行快三十年。见过太多“上等人”的梦。

2008年说“测试只要会点鼠标”。2015年说“自动化消灭手工测试”。现在说“AI时代只需定义意图”。每次都一样——有人在把测试人从执行层剥离出去，塞进一个看起来体面、实际上更脆弱的位置。

领测老贺的名号不是白叫的。我必须告诉你们一个刺耳的真相：

真正的护城河从来不是纯战略定义，是融合执行与定义的双通能力。别做上等人的梦，那是个镀金的笼子。

从今天起，每周花两小时亲手跑一次AI生成的用例。看它错在哪，为什么错。

你不是在检查AI。你是在抢救自己。

你是想做那只金丝雀，还是那个拿着剪刀的人？

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI本地化工作组组长

AI测试自动化测试双通能力

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可