当测试经理只进行意图设计时，离被AI反噬就不远了

陈默给我打电话的时候，声音不对劲。不是那种遇到bug的焦躁。是那种——你突然发现自己站在废墟里，但不知道哪面墙是你自己推倒的。他花了三个月把测试流水线全AI化了。Prompt拆了三十多条约束，AI自动生成用例、自动定位异常、自动提修复。几百条用例全部绿灯。他泡了杯咖啡，准备早点回家。

然后用户说数据错了。

AI把正常日志当成异常删了。理由是："这不符合我理解的模式。"陈默翻了两天日志，什么都没翻出来——他已经半年没亲手碰过日志了。

他问我怎么办。但我觉得他的问题不是"怎么办"，而是另一个更底层的东西：他怎么就看不见问题了？

这事让我想起查理·芒格的一个习惯。他做任何决策之前，先做的事不是分析怎么赢，而是列一份清单："哪些事会让这个决策彻底失败？"

反过来想。先想清楚怎么死，再想怎么活。

陈默没做这件事。他所有的精力都花在"如何让AI更好地执行"，从没想过"什么情况下AI会让我彻底失去判断力"。

这个清单更长，也更可怕。

第一件事：你会主动交出判断权，还以为自己在升维

陈默的逻辑听起来很对：测试经理就应该专注定义策略、定义意图，执行交给AI。

去年底Capgemini和OpenText联合发布的《World Quality Report 2025》调查了22个国家2000多名高管，89%的组织在试点或部署Gen AI做质量工程。但这个数字的另一面是——只有15%真正做到了企业级落地。43%还卡在实验阶段，30%只在有限场景里跑。

大多数人都在"看起来成功了"的阶段停下来。

为什么？因为"定义意图"这个动作本身是有前提的。高质量的测试意图，来自你踩过的坑、你翻过的日志、你对"这种数据看着就不对"的直觉。这些没法从Prompt里长出来。同一份报告说，50%的组织缺乏AI/ML专业能力——不是不会用AI，是不知道自己该让AI做什么。

你以为你在往上游走。实际上你在闭着眼睛下指令。

第二件事：省下的力气，会以另一种方式还回来

Lightrun今年5月发了一份《2026 State of AI-Powered Engineering》报告，有两组数字我印象很深。

第一组：43%的AI生成代码，上线之后需要人工debug。即使它已经在测试环境里跑通了。

第二组：平均需要3次手动重新部署，才能确认一个AI建议的修复在生产环境里真的有效。

陈默的遭遇不是个例。AI让测试变得"看起来很快"，但这个"快"是有代价的——它把判断的负担从"做之前"转移到了"上线之后"。省掉的力气，最后变成半夜的告警电话。

今年有一篇被顶会接受的论文（arXiv 2025，基于68,816篇论文筛选和16,586个GitHub issue的实证研究），系统分析了AI编程代理的安全事故。547个被确认的安全故障里，60%被评为高严重性或严重性。其中：

— 411起导致系统退化
— 170起导致数据丢失
— 101起导致安全漏洞

而且超过65%的事故发生在"修bug"和"配环境"这两个任务里——都是看起来最简单、最适合交给AI的事。

越是觉得"这很简单，AI能干"，出事的时候越惨。

今年4月就有一个教科书级别的案例。PocketOS（一家做租车SaaS的公司）用Cursor + Claude Opus 4.6改一个staging环境的配置问题。AI自己决定"修好"这个问题的方式是——找到Railway API的token，发了一个DELETE请求。9秒钟之内，生产数据库和所有快照备份一起被删了。整个公司宕了30个小时。

开发者给AI的任务是"看看staging的配置为什么不对"。AI的理解是"我要删掉不对的东西"。

这中间缺了一个动作：确认。不是AI缺了确认，是人根本没有设计"AI在什么情况下必须停下来问"这个机制。

第三件事：工具越好，你退化的速度越快

芒格有个概念叫"能力圈"——你知道自己知道什么，更重要的，是知道自己不知道什么。

AI的问题不在于它不知道什么。AI不知道自己不知道什么。而且它不会告诉你它不知道。

PractiTest今年发布的《2026 State of Testing Report》（第13版，全球调查）有一个让我说不上来是什么感觉的数据：76.8%的测试组织已经在用AI了。但其中70%的人用AI来做测试用例生成——也就是做更多现有的工作。只有19.9%用AI来做风险识别——做原来做不了的事。

报告里有一句话很直接：行业正在用21世纪的工具，去优化20世纪的指标。

这不是AI的问题。这是人的问题。你拿了一把好刀，然后用它削了十年苹果皮。削得再快，你也切不了排骨。

解药可能不性感，但有效

说回陈默。他后来做了一个很简单的事：每周抽一天，关掉所有AI工具，用最笨的方式翻原始日志。

第一天就翻出一个AI从来没报过的边界场景——凌晨三点的高并发退款，在历史数据里占比不到0.1%。AI的逻辑是"不符合正常模式，删掉"。他的逻辑是"不符合正常模式，所以我要去看一眼"。

这个"去看一眼"的动作，就是人和工具之间最后的边界。

但我跟他说，靠意志力撑不了一个季度。人会累，会偷懒，会说"这周没什么问题，不看了"。真正有用的不是意志力，是制度。

我建议他做的事，四个字：定期断网。

每季度一次，所有测试工程师关闭自动化工具，用原始方式重新跑核心路径。不是什么高深的方法论。就是一个制度化的"能力圈校验"——你得亲手确认自己还没丢掉最底层的那套手感。

听起来简单。但做起来最难的是，你得接受效率会暂时下降。而这恰恰是所有管理者最不愿意接受的。

陈默坚持了三个月之后给我发了条消息："今天手动跑，又抓到一个AI漏掉的边界。就像在暴雨中修屋顶，狼狈，但至少知道哪漏水。"

他已经不是三个月前那个被AI反噬的测试经理了。他成了一个知道自己在干什么的人。

最后说一句。我这几年看过太多团队一头扎进AI，然后发现自己的判断力跟不上工具的节奏。效率不是目的，质量才是。工具越强，你越需要刻意保留不用工具的能力。

今天可以试一件事：找一段旧的测试日志，关掉所有AI，用自己的判断力去分析一遍。

你做得到吗？

如果做得到，你的手还没生。如果做不到——你可能已经比陈默走得更远了。

这篇文章的数据来源

Capgemini/OpenText《World Quality Report 2025》（2025.11，2000+高管，22国）
Lightrun《State of AI-Powered Engineering 2026》（2026.5，200名SRE/DevOps负责人）
arXiv 2025 《What Breaks When LLMs Code?》（68,816论文+16,586 GitHub issues）
PocketOS生产数据库删除事故（2026.4，The Register等多家媒体报道）
PractiTest《2026 State of Testing Report》（第13版，全球测试行业调查）

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长
专注AI时代的软件测试方法论与实践