你怕AI 测试掀桌子吗?说AI 测试不靠谱可能只是表面现象!

2026年4月27日 66点热度 0人点赞 0条评论
导读:

AI 测试的失败看似是工具缺陷,实则是 AI 以绝对理性照见了组织长期存在的治理混乱、流程不规范、权责模糊、共识缺失等深层顽疾;AI 测试的价值不再只是 “挡 Bug”,而是成为暴露组织问题的 “显影剂”,测试工程师也从单纯的 bug 检测者转变为衔接机器理性与人类混沌的 “系统翻译官”,而真正的破局关键,是组织能否直面并解决这些被长期忽视的内部问题。

凌晨两点,两个AI吵起来了。一个说需求写得模糊,一个说数据标得离谱。李明坐在中间,突然发现自己不是在解决问题——而是在给一群装睡的人翻译梦话。


凌晨两点的会议室,两个AI在打架

李明盯着投影幕布,手里的咖啡早就凉了。

DeepSeek用蓝框圈出产品文档第8.3条:“‘用户可能希望’这种表述属于语义模糊,无法转化为可执行逻辑。”

Qwen立刻跳出来反驳,红框套住训练日志:“标注员连续三天标注‘欺诈交易’标准不一,模型学到的是噪声。”

开发组长拍桌子:“你们让AI查代码就行,扯什么文档?”

产品经理冷笑:“你写的代码连边界条件都没覆盖,还好意思怪需求?”

空调坏了,风扇嗡嗡响,像极了李明脑子里那根快要绷断的神经。

他忽然觉得荒唐。

这哪是技术复盘?这是甩锅大会。

两个AI在对喷,人类却忙着找替罪羊。


说实话,半年前他还真信过“工具决定论”。

那时候刚学完CT-GenAI英文大纲,信心满满地跟团队说:“以后我们靠Agent做回归测试,效率翻倍。”

现在他只想问自己一句:你以为你在驾驭AI,其实是AI在暴露你藏了五年的烂摊子。

就像照X光,本来只是想看看骨头有没有问题,结果肺部阴影全出来了。

50%的组织报告缺乏AI/ML专业知识,这一比例和去年一样(World Quality Report 2025)。

但李明知道,真实数字可能会更高。

因为没人愿意承认——我们根本不懂自己喂给AI的东西是什么。


我以为是测AI,其实是被AI测了

那天晚上散会后,李明没走。

他在白板上画了个图:左边是传统测试流程,右边是现在的“AI增强测试”。

本该是升级,结果越画越心虚。

以前,bug藏在代码里,他拿着放大镜找。

现在,bug藏在整个系统里——需求、数据、环境、权限、协作方式……所有裂缝都被AI照得清清楚楚。

他说白了,AI根本不在乎你有没有自动化测试框架。

它只关心一件事:这个系统的“确定性”够不够强。

如果你的需求能有三种解释,如果你的数据标注全靠心情,如果你的CI环境每周换一次IP……

那你不是在用AI测试系统,是你让AI来诊断你的组织癌症。

最讽刺的是:一个跑不通AI Agent的团队,从来就不是因为技术不行,而是开发过程早就塌方了。


李明面试过上百个测试工程师。

每次都问同一个问题:“如果让你测一个电商APP的支付模块,你会怎么设计策略?”

有人马上答:“测成功、失败、超时、重复提交。”

“你及格了。”

但也有人停三秒,反问:“用户是谁?场景是日常购物还是抢限量款?有没有风控拦截?资金流向是否可追溯?”

这时候李明就知道,这人能当“系统翻译官”。

可问题是——公司招的是测试工程师,不是哲学家。

他们要你能写脚本,不要你会提问。

你要能发现问题,但别动流程。

你要懂技术,但别挑战权威。

但现在不一样了。

AI不会听你念经式地说“我们一直这么做的”。

它要么不动,一动就是掀桌子。


那天之后,李明开始重新定义自己的工作。

他不再问“这个功能有没有Bug”,而是问:“为什么AI在这里卡住了?”

他发现,只要Agent跑不通的地方,一定是团队里最不敢提的问题所在。

比如那个没人碰的老信贷系统——接口文档丢了,原厂联系不上,但每天还在处理百万级交易。

AI一接入,立刻报错:“上下文缺失,无法推理行为模式。”

说得真文明啊,但骂的真脏。

翻译过来就是:你们这儿有个黑洞,谁进来都得疯。

还有次,Agent自动生成了一段修复代码,PR提交后被自动打回。

不是语法错,也不是安全扫描不过,而是——版本号规则不符。

原来团队有个潜规则:补丁版本必须由主程手动发布。

没人写进文档,新人永远踩坑。

AI不知道这些“人设潜规则”,于是被当成破坏者踢出去。

你说它是缺陷吗?

技术上不是。

组织上,全是。


当测试工程师变成“系统翻译官”

李明最近常做一个梦。

梦见自己站在两个世界之间:一头是机器的绝对理性,一头是人类的混沌现实。

他戴着双语耳机,不停翻译:“它不是不想改,是上下文不够。”“他们不是不同意,是怕担责。”

醒来总觉得累。

因为在现实中,他没有耳机,也没有话语权。

有一次他试着在会上说:“咱们能不能先统一一下‘高风险交易’的定义?”

全场沉默。

产品经理低头刷手机,开发组长咳嗽两声,CTO说:“这个问题后续讨论。”

后来他懂了。

真正的障碍从来不是AI会不会犯错,而是组织愿不愿意面对自己有多乱。

我们训练AI要对齐意图,可我们自己的组织意图根本就是分裂的。

销售要快,合规要稳,技术想重构,老板要看报表增长。

AI听着这一堆矛盾指令,最后只能随机选一个执行——然后背锅。


说到这里,老贺其实也没完全想清楚。

到底是该让AI适应我们的混乱,还是该借AI逼我们变干净?

我知道有些团队已经放弃“完美流程”了。

他们干脆设立“AI缓冲岗”——专门派人清理Agent看不懂的脏数据、重写它理解不了的需求描述、甚至模拟它的思维路径去预判哪里会卡壳。

听起来像AI的仆人吧?

但换个角度看,这些人其实在做最高级的系统诊断。

他们不是在伺候AI。

他们是在用手抠出那些本该由制度解决的问题。

就像当年没有监控的时代,保安拿手电筒照每一个角落。

现在AI是那道光,而测试工程师,成了举手电的人。


测试的价值,正在被重新定义

以前,测试的价值是“挡Bug”。

现在,测试的价值可能是“显影”。

你想想,过去我们说“质量是构建出来的”,所以测试要左移。

可现在呢?

质量不再是某个节点的结果,而是整个生成过程的可观测性本身。

当AI开始写代码、改配置、关报警,我们就不能再问“这段代码对不对”,而要问“这个生成过程受控吗”。

我在讲ISTQB CT-GenAI测试的时候,总有人问:“贺老师,怎么保证AI输出稳定?”

我通常反问:“你们的需求文档能让实习生看懂吗?你们的日志格式能被新来的算法同学直接分析吗?”

如果不能,那你指望AI能稳定,是不是有点天真?

说白了,AI是个极端较真的实习生。

你糊弄它三天,它记你一辈子。


上周我去一家银行做TMMi预评估。

他们上了Agent做变更影响分析,结果两周内触发了47次误报。

运维骂,开发烦,管理层质疑投入产出比。

但我看了日志发现,每次误报背后都有故事:

有一次是因为数据库迁移没同步索引命名规范;

有一次是某个微服务偷偷改了返回结构,没走评审;

还有一次,纯粹是因为负责人休假前口头交代“临时绕一下”,忘了还原。

你看,AI没报错,它报的是‘信任衰减’。

它不是在制造噪音,是在播放一段被所有人忽略的杂音合集。


现在越来越多公司来找我聊“AI测试转型”。

他们问:“老贺,我们要不要建AI测试平台?”

我总忍不住问回去:“你们现在的冒烟测试能每天稳定跑完吗?你们的需求变更记录完整吗?你们敢让新人独立负责一个发布吗?”

如果答案是否定的,那我建议你先别碰AI。

不然你会以为是技术不行,其实是把脓包扎破了而已。

我不是反对技术进步。

我是怕你们把一面镜子当成了锤子——本该用来照见问题,却被拿来砸向执行层。


写到这里,老贺自己也犹豫了。

我们是不是太苛责AI了?

毕竟,它只是个工具。

可转念一想,刀也能切菜也能伤人,但我们不会怪菜太滑吧?

或许真正该问的不是‘AI为什么失败’,而是‘为什么我们容忍失败这么久却视而不见’?

李明后来换了岗位,不做测试负责人了。

他现在头衔叫“智能体行为协调主管”——听着挺玄,其实就是继续当翻译。

只不过这次,他学会了带录音笔进会场。

不是为了取证,是为了回头放给自己听,还可以给AI进行快速总结,标记出:

那些年大家是怎么一本正经地否认问题存在的。


前几天他给我打电话,声音很轻:“老贺,你说我现在干的事,还算测试吗?”

我没回答。

我想起二十年前,我在产线对着一台老服务器重启第七次时,也有同事问我:“你这算修电脑还是保平安?”

那时候我觉得是个笑话。

现在我知道,有些工作从来看不见光,但它一直在撑着系统的最后一口气。


所以最后,老贺也只能留下一个问题:

当你把AI放进系统那一刻,你是希望它帮你做事,还是希望它帮你看见真相?

如果是后者,你准备好承受那份清醒了吗?

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长专注AI时代的软件测试方法论与实践

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论