然后用户说数据错了。
AI把正常日志当成异常删了。理由是:"这不符合我理解的模式。"陈默翻了两天日志,什么都没翻出来——他已经半年没亲手碰过日志了。
他问我怎么办。但我觉得他的问题不是"怎么办",而是另一个更底层的东西:他怎么就看不见问题了?
这事让我想起查理·芒格的一个习惯。他做任何决策之前,先做的事不是分析怎么赢,而是列一份清单:"哪些事会让这个决策彻底失败?"
反过来想。先想清楚怎么死,再想怎么活。
陈默没做这件事。他所有的精力都花在"如何让AI更好地执行",从没想过"什么情况下AI会让我彻底失去判断力"。
这个清单更长,也更可怕。
第一件事:你会主动交出判断权,还以为自己在升维
陈默的逻辑听起来很对:测试经理就应该专注定义策略、定义意图,执行交给AI。
去年底Capgemini和OpenText联合发布的《World Quality Report 2025》调查了22个国家2000多名高管,89%的组织在试点或部署Gen AI做质量工程。但这个数字的另一面是——只有15%真正做到了企业级落地。43%还卡在实验阶段,30%只在有限场景里跑。
大多数人都在"看起来成功了"的阶段停下来。
为什么?因为"定义意图"这个动作本身是有前提的。高质量的测试意图,来自你踩过的坑、你翻过的日志、你对"这种数据看着就不对"的直觉。这些没法从Prompt里长出来。同一份报告说,50%的组织缺乏AI/ML专业能力——不是不会用AI,是不知道自己该让AI做什么。
你以为你在往上游走。实际上你在闭着眼睛下指令。
第二件事:省下的力气,会以另一种方式还回来
Lightrun今年5月发了一份《2026 State of AI-Powered Engineering》报告,有两组数字我印象很深。
第一组:43%的AI生成代码,上线之后需要人工debug。即使它已经在测试环境里跑通了。
第二组:平均需要3次手动重新部署,才能确认一个AI建议的修复在生产环境里真的有效。
陈默的遭遇不是个例。AI让测试变得"看起来很快",但这个"快"是有代价的——它把判断的负担从"做之前"转移到了"上线之后"。省掉的力气,最后变成半夜的告警电话。
今年有一篇被顶会接受的论文(arXiv 2025,基于68,816篇论文筛选和16,586个GitHub issue的实证研究),系统分析了AI编程代理的安全事故。547个被确认的安全故障里,60%被评为高严重性或严重性。其中:
— 411起导致系统退化
— 170起导致数据丢失
— 101起导致安全漏洞
而且超过65%的事故发生在"修bug"和"配环境"这两个任务里——都是看起来最简单、最适合交给AI的事。
越是觉得"这很简单,AI能干",出事的时候越惨。
今年4月就有一个教科书级别的案例。PocketOS(一家做租车SaaS的公司)用Cursor + Claude Opus 4.6改一个staging环境的配置问题。AI自己决定"修好"这个问题的方式是——找到Railway API的token,发了一个DELETE请求。9秒钟之内,生产数据库和所有快照备份一起被删了。整个公司宕了30个小时。
开发者给AI的任务是"看看staging的配置为什么不对"。AI的理解是"我要删掉不对的东西"。
这中间缺了一个动作:确认。不是AI缺了确认,是人根本没有设计"AI在什么情况下必须停下来问"这个机制。
第三件事:工具越好,你退化的速度越快
芒格有个概念叫"能力圈"——你知道自己知道什么,更重要的,是知道自己不知道什么。
AI的问题不在于它不知道什么。AI不知道自己不知道什么。而且它不会告诉你它不知道。
PractiTest今年发布的《2026 State of Testing Report》(第13版,全球调查)有一个让我说不上来是什么感觉的数据:76.8%的测试组织已经在用AI了。但其中70%的人用AI来做测试用例生成——也就是做更多现有的工作。只有19.9%用AI来做风险识别——做原来做不了的事。
报告里有一句话很直接:行业正在用21世纪的工具,去优化20世纪的指标。
这不是AI的问题。这是人的问题。你拿了一把好刀,然后用它削了十年苹果皮。削得再快,你也切不了排骨。
解药可能不性感,但有效
说回陈默。他后来做了一个很简单的事:每周抽一天,关掉所有AI工具,用最笨的方式翻原始日志。
第一天就翻出一个AI从来没报过的边界场景——凌晨三点的高并发退款,在历史数据里占比不到0.1%。AI的逻辑是"不符合正常模式,删掉"。他的逻辑是"不符合正常模式,所以我要去看一眼"。
这个"去看一眼"的动作,就是人和工具之间最后的边界。
但我跟他说,靠意志力撑不了一个季度。人会累,会偷懒,会说"这周没什么问题,不看了"。真正有用的不是意志力,是制度。
我建议他做的事,四个字:定期断网。
每季度一次,所有测试工程师关闭自动化工具,用原始方式重新跑核心路径。不是什么高深的方法论。就是一个制度化的"能力圈校验"——你得亲手确认自己还没丢掉最底层的那套手感。
听起来简单。但做起来最难的是,你得接受效率会暂时下降。而这恰恰是所有管理者最不愿意接受的。
陈默坚持了三个月之后给我发了条消息:"今天手动跑,又抓到一个AI漏掉的边界。就像在暴雨中修屋顶,狼狈,但至少知道哪漏水。"
他已经不是三个月前那个被AI反噬的测试经理了。他成了一个知道自己在干什么的人。
最后说一句。我这几年看过太多团队一头扎进AI,然后发现自己的判断力跟不上工具的节奏。效率不是目的,质量才是。工具越强,你越需要刻意保留不用工具的能力。
今天可以试一件事:找一段旧的测试日志,关掉所有AI,用自己的判断力去分析一遍。
你做得到吗?
如果做得到,你的手还没生。如果做不到——你可能已经比陈默走得更远了。
这篇文章的数据来源
Capgemini/OpenText《World Quality Report 2025》(2025.11,2000+高管,22国)
Lightrun《State of AI-Powered Engineering 2026》(2026.5,200名SRE/DevOps负责人)
arXiv 2025 《What Breaks When LLMs Code?》(68,816论文+16,586 GitHub issues)
PocketOS生产数据库删除事故(2026.4,The Register等多家媒体报道)
PractiTest《2026 State of Testing Report》(第13版,全球测试行业调查)


文章评论