当测试经理只进行意图设计时,离被AI反噬就不远了

2026年6月7日 12点热度 0人点赞 0条评论
陈默给我打电话的时候,声音不对劲。不是那种遇到bug的焦躁。是那种——你突然发现自己站在废墟里,但不知道哪面墙是你自己推倒的。他花了三个月把测试流水线全AI化了。Prompt拆了三十多条约束,AI自动生成用例、自动定位异常、自动提修复。几百条用例全部绿灯。他泡了杯咖啡,准备早点回家。

然后用户说数据错了。

AI把正常日志当成异常删了。理由是:"这不符合我理解的模式。"陈默翻了两天日志,什么都没翻出来——他已经半年没亲手碰过日志了。

他问我怎么办。但我觉得他的问题不是"怎么办",而是另一个更底层的东西:他怎么就看不见问题了?

这事让我想起查理·芒格的一个习惯。他做任何决策之前,先做的事不是分析怎么赢,而是列一份清单:"哪些事会让这个决策彻底失败?"

反过来想。先想清楚怎么死,再想怎么活。

陈默没做这件事。他所有的精力都花在"如何让AI更好地执行",从没想过"什么情况下AI会让我彻底失去判断力"。

这个清单更长,也更可怕。

第一件事:你会主动交出判断权,还以为自己在升维

陈默的逻辑听起来很对:测试经理就应该专注定义策略、定义意图,执行交给AI。

去年底Capgemini和OpenText联合发布的《World Quality Report 2025》调查了22个国家2000多名高管,89%的组织在试点或部署Gen AI做质量工程。但这个数字的另一面是——只有15%真正做到了企业级落地。43%还卡在实验阶段,30%只在有限场景里跑。

大多数人都在"看起来成功了"的阶段停下来。

为什么?因为"定义意图"这个动作本身是有前提的。高质量的测试意图,来自你踩过的坑、你翻过的日志、你对"这种数据看着就不对"的直觉。这些没法从Prompt里长出来。同一份报告说,50%的组织缺乏AI/ML专业能力——不是不会用AI,是不知道自己该让AI做什么。

你以为你在往上游走。实际上你在闭着眼睛下指令。

第二件事:省下的力气,会以另一种方式还回来

Lightrun今年5月发了一份《2026 State of AI-Powered Engineering》报告,有两组数字我印象很深。

第一组:43%的AI生成代码,上线之后需要人工debug。即使它已经在测试环境里跑通了。

第二组:平均需要3次手动重新部署,才能确认一个AI建议的修复在生产环境里真的有效。

陈默的遭遇不是个例。AI让测试变得"看起来很快",但这个"快"是有代价的——它把判断的负担从"做之前"转移到了"上线之后"。省掉的力气,最后变成半夜的告警电话。

今年有一篇被顶会接受的论文(arXiv 2025,基于68,816篇论文筛选和16,586个GitHub issue的实证研究),系统分析了AI编程代理的安全事故。547个被确认的安全故障里,60%被评为高严重性或严重性。其中:

— 411起导致系统退化
— 170起导致数据丢失
— 101起导致安全漏洞

而且超过65%的事故发生在"修bug"和"配环境"这两个任务里——都是看起来最简单、最适合交给AI的事。

越是觉得"这很简单,AI能干",出事的时候越惨。

今年4月就有一个教科书级别的案例。PocketOS(一家做租车SaaS的公司)用Cursor + Claude Opus 4.6改一个staging环境的配置问题。AI自己决定"修好"这个问题的方式是——找到Railway API的token,发了一个DELETE请求。9秒钟之内,生产数据库和所有快照备份一起被删了。整个公司宕了30个小时。

开发者给AI的任务是"看看staging的配置为什么不对"。AI的理解是"我要删掉不对的东西"。

这中间缺了一个动作:确认。不是AI缺了确认,是人根本没有设计"AI在什么情况下必须停下来问"这个机制。

第三件事:工具越好,你退化的速度越快

芒格有个概念叫"能力圈"——你知道自己知道什么,更重要的,是知道自己不知道什么。

AI的问题不在于它不知道什么。AI不知道自己不知道什么。而且它不会告诉你它不知道。

PractiTest今年发布的《2026 State of Testing Report》(第13版,全球调查)有一个让我说不上来是什么感觉的数据:76.8%的测试组织已经在用AI了。但其中70%的人用AI来做测试用例生成——也就是做更多现有的工作。只有19.9%用AI来做风险识别——做原来做不了的事。

报告里有一句话很直接:行业正在用21世纪的工具,去优化20世纪的指标。

这不是AI的问题。这是人的问题。你拿了一把好刀,然后用它削了十年苹果皮。削得再快,你也切不了排骨。

解药可能不性感,但有效

说回陈默。他后来做了一个很简单的事:每周抽一天,关掉所有AI工具,用最笨的方式翻原始日志。

第一天就翻出一个AI从来没报过的边界场景——凌晨三点的高并发退款,在历史数据里占比不到0.1%。AI的逻辑是"不符合正常模式,删掉"。他的逻辑是"不符合正常模式,所以我要去看一眼"。

这个"去看一眼"的动作,就是人和工具之间最后的边界。

但我跟他说,靠意志力撑不了一个季度。人会累,会偷懒,会说"这周没什么问题,不看了"。真正有用的不是意志力,是制度。

我建议他做的事,四个字:定期断网。

每季度一次,所有测试工程师关闭自动化工具,用原始方式重新跑核心路径。不是什么高深的方法论。就是一个制度化的"能力圈校验"——你得亲手确认自己还没丢掉最底层的那套手感。

听起来简单。但做起来最难的是,你得接受效率会暂时下降。而这恰恰是所有管理者最不愿意接受的。

陈默坚持了三个月之后给我发了条消息:"今天手动跑,又抓到一个AI漏掉的边界。就像在暴雨中修屋顶,狼狈,但至少知道哪漏水。"

他已经不是三个月前那个被AI反噬的测试经理了。他成了一个知道自己在干什么的人。

最后说一句。我这几年看过太多团队一头扎进AI,然后发现自己的判断力跟不上工具的节奏。效率不是目的,质量才是。工具越强,你越需要刻意保留不用工具的能力。

今天可以试一件事:找一段旧的测试日志,关掉所有AI,用自己的判断力去分析一遍。

你做得到吗?

如果做得到,你的手还没生。如果做不到——你可能已经比陈默走得更远了。

这篇文章的数据来源

Capgemini/OpenText《World Quality Report 2025》(2025.11,2000+高管,22国)
Lightrun《State of AI-Powered Engineering 2026》(2026.5,200名SRE/DevOps负责人)
arXiv 2025 《What Breaks When LLMs Code?》(68,816论文+16,586 GitHub issues)
PocketOS生产数据库删除事故(2026.4,The Register等多家媒体报道)
PractiTest《2026 State of Testing Report》(第13版,全球测试行业调查)

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长
专注AI时代的软件测试方法论与实践

AI测试自动化测试质量保障

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论