当软件测试工程师变成“AI确认按钮”之后......

2026年4月17日 36点热度 0人点赞 0条评论

AI Agent测试失败越频繁,你的团队越危险

导读

我认识一个测试工程师,姑且叫他老周吧,在一家中型互联网公司干了八年,简历写出来很漂亮——主导过多次架构重构的测试工作,带过团队,经历过项目从零到一。

去年他们公司上了AI测试平台,号称能让测试效率提升十倍。老周一开始很兴奋,觉得终于可以从繁琐的手工用例里解脱出来了。

半年后我问他效果怎么样,他说很好,效率确实高了。

我又问他:那你现在主要做什么?

他愣了一下,说:审核AI生成的测试用例,看看对不对,然后执行。

我再问他:那些用例,你觉得不对的情况多吗?

他又愣了一下,说:不多,基本都对。

我最后问他:那你的价值是什么?

他想了很久,有点失落的最后说:我也不知道,反正每天都很忙。

一个正在被软件测试行业忽视的真相:AI测试越普及,测试工程师的独立判断力却越来越退化

这就是老贺想说的事情。不是AI不好,而是我们在不知不觉中,把自己活成了一个“确认按钮”。

一、什么是被“AI驯化”

我先解释一下“驯化”这个词。

野生动物被驯化,不是被关进笼子里,而是它的本能反应被慢慢改变。狗看到人会摇尾巴,不是因为它天生喜欢人,而是因为千百年来,那些不摇尾巴的狗没被留下来。

测试工程师正在经历类似的过程。

你可能没意识到,但如果你每天的工作流程是这样的:

早上打开电脑 → AI生成一批测试用例 → 你看看有没有明显的问题 → 如果没有就执行 → 下午AI分析测试覆盖率 → 你看看报告 → 如果没有红色警告就提交 → 晚上AI生成测试报告摘要 → 你复制到日报里 → 发送。

现在你还想让小龙虾(openclaw)直接自己干了,你就不参与了。你觉得这个流程看起来很高效对吧?产出比半年前高多了,日报内容更丰富了,主管也觉得你很忙。

但你有没有想过:在这个流程里,你的判断力在做什么?

大多数时候,你的判断是:“嗯,看起来没问题。”

这个判断需要什么能力?几乎不需要。你不需要理解业务逻辑,不需要分析用户行为路径,不需要判断这个功能上线后会不会出现预料之外的连锁反应。

你只需要识别“明显不对”的情况。

而AI生成的测试用例,“明显不对”的概率本来就很低。

所以你的工作,逐渐变成了一种心理安慰——你在告诉自己“我还在参与这个决策”,实际上你只是在给AI的输出盖一个“已读”的章。

这不是在使用工具,这是被工具使用。

二、效率陷阱:那些没人说的事实

现在几乎所有关于AI测试的文章,都在讲同一个故事:自动化程度提高了,回归测试时间缩短了,缺陷发现更及时了。

这些是真的吗?可能是。

但这是全部的真相吗?绝对不是。

让我问你几个问题:

第一个问题:如果所有测试活动都可以被预设规则覆盖,那测试工程师这个岗位存在的意义是什么?

你可能会说:AI只能处理规则内的场景,规则外的还是需要人来判断。

好,那我们来想一个具体的场景。

你负责支付模块的测试,这个模块已经跑了两年的自动化用例,覆盖率维持在85%以上。AI接手后,覆盖率提升到了92%,执行时间从四小时缩短到了四十分钟。

有一天,产品经理告诉你,我们要上一个新功能:用户可以用积分抵现,抵现比例动态计算,涉及到三个子系统、两种会员等级、四种优惠券叠加方式。

这个功能的测试,你怎么设计?

你让AI生成用例,它会基于什么?基于现有的系统文档、基于历史的测试数据、基于你喂给它的业务规则。

但这个新功能的核心价值是什么?是“让用户觉得占了便宜”。

这不是一个可以写进规则的场景。

用户“觉得占便宜”是一个心理学问题,不是逻辑问题。你需要理解用户的心理模型,需要想象用户在什么情况下会产生“划算”的感觉,需要判断系统的计算方式会不会在某些边界情况下让用户觉得“被骗了”。

这些东西,AI能帮你吗?它能生成测试用例,但它生成不了“测试意图”。

第二个问题:你的日报里,有多少内容是你自己思考的结果?

我见过很多测试工程师的日报,开头是AI生成的项目进度概述,中间是AI整理的缺陷统计,后面是AI总结的风险评估。

如果把这些AI生成的内容去掉,你自己的输出是什么?

可能是:“今日主要工作为执行AI生成的测试用例,未发现新问题。”

这句话放三个月前的日报里,你会觉得有成就感吗?

第三个问题:当AI出错的时候,你能发现吗?

Capgemini在2025年发布的《World Quality Report》里提到,有50%的组织表示自己缺乏AI和机器学习方面的专业知识。这个比例和2024年一模一样。

也就是说,整个行业在说了一年“全面接入AI”之后,在AI能力建设上几乎没有进步。

但这并不影响大家继续高喊“AI赋能测试”。

于是出现了我前面说的那种荒诞:一个连模型偏差都解释不清的团队,在用AI做“智能风险评估”;一个连CI稳定性都搞不定的公司,让Agent自动提交代码修复;一个测试环境三年没统一过的项目组,讨论“让AI自己处理环境差异”。

这不是在提效,这是在给一辆刹车有问题的车换上更快的发动机。

三、比失业更可怕的是:测试思维退化

很多人担心AI会让测试工程师失业。

我不太担心这个。

我担心的是另一件事:十年后,我们还能不能认出“测试工程师”这个角色。

以前我面试测试工程师,会问三类问题:

第一类是关于思维的——你怎么设计一个复杂系统的测试策略?你怎么在没有明确需求的情况下发现潜在风险?你怎么判断一个缺陷该不该修?

第二类是关于沟通的——你怎么跟开发人员解释一个bug的严重性?你怎么说服产品经理接受你的测试结论?你怎么让非技术人员理解技术债务的风险?

第三类是关于学习的——你有没有自己搭建过测试框架?你有没有研究过某个技术的底层原理?你有没有在不熟悉的领域快速上手的能力?

这三个能力,有一个共同的特点:它们都很难被工具替代。

但现在的面试官开始问另一类问题了:你调过哪些模型的temperature参数?你用过哪些Prompt模板来优化测试用例生成?你怎么评估AI生成测试用例的质量?

这些是技能问题,不是能力问题。

技能是可以被工具替代的。你今天会用某个AI测试平台,三年后可能就不需要人会用了,因为工具会更智能,更易用。

但思维方式和学习能力,永远不可能被工具替代。

我不是说学会用AI工具是错的。技能是重要的。

但当一个岗位的选拔标准,从“你怎么想”变成“你怎么喂AI”,这个岗位就已经开始变味了。

我还记得我做测试工程师的时候,有一种测试方法叫“探索性测试”。没有预设的测试用例,没有脚本,没有计划。

你拿着一份需求文档,坐在电脑前,靠经验和直觉去找系统的漏洞。

你需要想象用户会怎么用这个系统,然后去验证你的想象。你需要挑战开发人员的假设,找到那些“应该不会发生但其实会发生”的场景。

这种测试没法自动化,因为它依赖于你的直觉、你的经验、你的创造力。

现在面试新人的时候,有时候会问:你知道什么是探索性测试吗?做过吗?

很多候选人的回答是:知道,但我们现在都用AI做自动化测试,探索性测试不适用。

听到这个回答,我不知道该说他们是对的,还是该说他们错过了什么。

AI确实能做很多事情,但它做不了“直觉”这种东西。

直觉是什么?直觉是你见过足够多的场景之后,大脑在潜意识里形成的快速判断能力。

这种能力只能通过大量的实战经验积累。它没法通过看文档获得,没法通过学Prompt技巧获得,更没法通过调用API获得。

而探索性测试,恰恰是培养这种直觉最好的方式。

当AI替代了大部分的探索性测试场景,测试工程师的直觉能力就会慢慢退化。

这不是危言耸听,这是规律。

四、Agent不是加速器,是照妖镜

现在行业内有一种说法:AI Agent是开发者的加速器,能让每个人的产能提升十倍。

这个说法老贺不完全同意。

Agent不是加速器,它是照妖镜。

它照出来的不是AI的能力,是你自己的问题。

为什么很多团队用不好Agent?因为他们以为是AI不够聪明,其实是团队的基础太烂。

举几个我见过的真实例子。

第一个例子:一家公司上了AI代码审查Agent,结果发现Agent生成的修复建议,有一半都用不了。原因是他们的代码风格不统一、命名规范混乱、注释几乎不存在。AI能看懂代码,但它没法弥补团队多年的技术债务。

第二个例子:一家公司用Agent自动生成测试用例,结果生成的用例有一堆是无效的,因为他们的系统文档早就过时了,AI参考的是三年前的旧资料。

第三个例子:一家公司让Agent根据Bug描述自动生成测试脚本,结果Agent经常改错地方,因为它没法准确理解Bug的上下文,而这恰恰是因为他们的Bug描述写得模模糊糊,三言两语,没有复现步骤,没有环境信息。

每次遇到这种情况,当事人的第一反应都是:AI不行。

但真相是什么?真相是,AI只是把你团队本来就存在的问题,放大十倍展示出来了。

我曾经在一家传统企业做TMMi咨询,他们的CI流程,三年没跑通过一次完整的回归测试。不是因为技术上有多难,是因为团队协作问题、需求变更频繁问题、测试环境不统一问题,一直没人解决。

你去问他们现在的计划是什么,答案是:“准备引入AI来自动化修复测试失败的问题。”

我跟他们的技术负责人说,你先让CI能完整跑通一次再说。

他问我:AI不是应该能自己处理这些吗?

那一刻我就知道,这场所谓的“AI转型”,大概率会以失败告终。不是AI不够好,是他们的基础太差了,好工具也救不了。

AI不会掩盖管理问题,它只会以更快的速度引爆它。

你看到那些在Anthropic、Google顺利落地Agent的案例,觉得是AI厉害。

不是的。那是人家十几年的工程治理、代码规范、文档建设、团队协作的综合体现。AI只是最后那块拼图。

而大多数公司,连前面的拼图都没准备好,就想直接抄最后的答案。

这不是在提效,这是在拿生产环境做实验。

五、最大的盲区:测试本身并不可靠

几乎所有的AI测试方案,都有一个默认的假设:

测试本身是可靠的,是稳定的,是可以被信任的。

这个假设是有问题的。

现实情况是:大多数公司的测试套件,其实处于半死不活的状态。

Mock写得随意,今天能跑通,明天换个参数就报错。断言写得很脆弱,稍微改个边界值,整个用例就废了。测试数据靠人工维护,用例执行成功率看心情,有时候跑十次能过七次,有时候只能过三次。

在这种情况下,你让AI去“参考测试反馈做决策”,就像让医生根据一份错漏百出的体检报告来开药。

体检报告错了,医生开错药,责任是医生的吗?

更让人担忧的是:一旦AI开始大量生成测试代码,这些代码由谁来维护?

现在的测试代码已经很难维护了,文档缺失、逻辑复杂、重构困难。

AI生成的代码,因为是自动化产物,往往比人工写的更难理解——你不知道它为什么这么写,你只知道它生成的测试通过了。

如果连人工写的测试代码都经常腐化,AI生成的只会腐化得更快,因为它是在特定上下文下生成的,一旦上下文变了,它的逻辑可能就不适用了。

结果会是什么?

我们正在制造一场“测试雪崩”:

AI生成测试 → 测试质量下降 → 错误反馈给系统 → AI基于错误反馈继续优化 → 更多错误测试 → 更大的混乱。

没有人愿意谈这个问题,因为它太扫兴了。

大家都想听“AI让测试更高效”的故事,没人想听“AI可能让测试变得更混乱”的警告。

但领测老贺作为一个真正负责任的测试行业的从业者,不应该只说你想听的话。

六、给不想变成“确认按钮”的你

批评是容易的,建设是难的。

我不想只泼冷水,我也想说一些真正有用的话。

如果你不想在五年后变成一个高级的“AI确认按钮”,有几件事你可以做:

第一,每天留一个小时,不碰任何AI工具。

这一个小时,用来处理需要深度思考的工作——设计测试策略、分析边界场景、评估架构风险、跟开发讨论技术方案。

不是为了对抗AI,而是为了保持大脑的“野外生存”能力。

你不能每天都坐车,偶尔也要走走路,不然腿会退化。

第二,把AI的定位从“替代者”改成“参考者”。

AI生成的东西,永远是原材料,不是成品。

你要做的是加工,把原材料变成真正有价值的东西。没有你的加工,AI生成的永远是半成品。

第三,定期做一次“裸测”练习。

关掉所有AI工具,用最原始的方式——看文档、想场景、写用例、执行、记录、评估。

做完之后,跟你用AI辅助的结果对比一下。你会发现,有时候人工做的比AI好,有时候AI做的比人工快。

重要的是,你要知道自己的边界在哪里。知道边界在哪里,才不会被工具牵着走。

第四,把学习AI的时间,合理分配。

学会调参、学会写Prompt、学会用新工具,这些都是有用的技能。

但别让它占据你全部的学习时间。你还要花时间去理解业务、理解用户、理解系统、理解人性。

这些东西,AI学不会,但它们能让你变成一个更好的测试工程师。

第五,在团队里推动“AI治理”的概念。

AI生成的代码应该有审查流程,AI生成的测试应该有二次确认,AI输出的结论应该有人类测试专家背书。

不是因为AI不可信,而是因为过度信任任何系统都是危险的。

写在最后

老贺干测试块三十年,见过太多次“革命性技术”改变这个行业。

自动化测试刚出来的时候,有人说测试工程师要失业了。结果是自动化测试让测试工程师可以做更多事情。

敏捷开发流行的时候,有人说测试工程师的角色要消失了。结果是测试工程师在敏捷团队里找到了新的定位。

现在AI来了,同样的论调又出现了。

但我想说,每一次技术变革,都是一次重新洗牌。

洗掉的是那些拒绝学习、固守旧模式的人。

留下的是那些能够拥抱变化、但不被变化裹挟的人。

测试工程师的核心价值,从来不是写用例、执行用例、生成报告。

测试工程师的核心价值,是确保软件系统值得被信任。

这个价值,需要经验、需要直觉、需要判断力、需要和人沟通的能力、需要对业务的深刻理解。

这些东西,AI可以辅助,但AI替代不了。

怕的是,在AI辅助的过程中,我们慢慢忘记了什么才是真正重要的。

所以,在你下一次习惯性地把问题丢给AI之前,先问自己一个问题:

如果明天断网,你能解决这个问题吗?

如果答案是“不能”,那你要担心的,不是AI抢了你的饭碗。

而是你正在变成一个,离不开AI的高学历“确认按钮”。

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论