你怕AI 测试掀桌子吗？说AI 测试不靠谱可能只是表面现象！

2026年4月27日 66点热度 0人点赞 0条评论

导读：

AI 测试的失败看似是工具缺陷，实则是 AI 以绝对理性照见了组织长期存在的治理混乱、流程不规范、权责模糊、共识缺失等深层顽疾；AI 测试的价值不再只是 “挡 Bug”，而是成为暴露组织问题的 “显影剂”，测试工程师也从单纯的 bug 检测者转变为衔接机器理性与人类混沌的 “系统翻译官”，而真正的破局关键，是组织能否直面并解决这些被长期忽视的内部问题。

凌晨两点，两个AI吵起来了。一个说需求写得模糊，一个说数据标得离谱。李明坐在中间，突然发现自己不是在解决问题——而是在给一群装睡的人翻译梦话。

凌晨两点的会议室，两个AI在打架

李明盯着投影幕布，手里的咖啡早就凉了。

DeepSeek用蓝框圈出产品文档第8.3条：“‘用户可能希望’这种表述属于语义模糊，无法转化为可执行逻辑。”

Qwen立刻跳出来反驳，红框套住训练日志：“标注员连续三天标注‘欺诈交易’标准不一，模型学到的是噪声。”

开发组长拍桌子：“你们让AI查代码就行，扯什么文档？”

产品经理冷笑：“你写的代码连边界条件都没覆盖，还好意思怪需求？”

空调坏了，风扇嗡嗡响，像极了李明脑子里那根快要绷断的神经。

他忽然觉得荒唐。

这哪是技术复盘？这是甩锅大会。

两个AI在对喷，人类却忙着找替罪羊。

说实话，半年前他还真信过“工具决定论”。

那时候刚学完CT-GenAI英文大纲，信心满满地跟团队说：“以后我们靠Agent做回归测试，效率翻倍。”

现在他只想问自己一句：你以为你在驾驭AI，其实是AI在暴露你藏了五年的烂摊子。

就像照X光，本来只是想看看骨头有没有问题，结果肺部阴影全出来了。

50%的组织报告缺乏AI/ML专业知识，这一比例和去年一样（World Quality Report 2025）。

但李明知道，真实数字可能会更高。

因为没人愿意承认——我们根本不懂自己喂给AI的东西是什么。

我以为是测AI，其实是被AI测了

那天晚上散会后，李明没走。

他在白板上画了个图：左边是传统测试流程，右边是现在的“AI增强测试”。

本该是升级，结果越画越心虚。

以前，bug藏在代码里，他拿着放大镜找。

现在，bug藏在整个系统里——需求、数据、环境、权限、协作方式……所有裂缝都被AI照得清清楚楚。

他说白了，AI根本不在乎你有没有自动化测试框架。

它只关心一件事：这个系统的“确定性”够不够强。

如果你的需求能有三种解释，如果你的数据标注全靠心情，如果你的CI环境每周换一次IP……

那你不是在用AI测试系统，是你让AI来诊断你的组织癌症。

最讽刺的是：一个跑不通AI Agent的团队，从来就不是因为技术不行，而是开发过程早就塌方了。

李明面试过上百个测试工程师。

每次都问同一个问题：“如果让你测一个电商APP的支付模块，你会怎么设计策略？”

有人马上答：“测成功、失败、超时、重复提交。”

“你及格了。”

但也有人停三秒，反问：“用户是谁？场景是日常购物还是抢限量款？有没有风控拦截？资金流向是否可追溯？”

这时候李明就知道，这人能当“系统翻译官”。

可问题是——公司招的是测试工程师，不是哲学家。

他们要你能写脚本，不要你会提问。

你要能发现问题，但别动流程。

你要懂技术，但别挑战权威。

但现在不一样了。

AI不会听你念经式地说“我们一直这么做的”。

它要么不动，一动就是掀桌子。

那天之后，李明开始重新定义自己的工作。

他不再问“这个功能有没有Bug”，而是问：“为什么AI在这里卡住了？”

他发现，只要Agent跑不通的地方，一定是团队里最不敢提的问题所在。

比如那个没人碰的老信贷系统——接口文档丢了，原厂联系不上，但每天还在处理百万级交易。

AI一接入，立刻报错：“上下文缺失，无法推理行为模式。”

说得真文明啊，但骂的真脏。

翻译过来就是：你们这儿有个黑洞，谁进来都得疯。

还有次，Agent自动生成了一段修复代码，PR提交后被自动打回。

不是语法错，也不是安全扫描不过，而是——版本号规则不符。

原来团队有个潜规则：补丁版本必须由主程手动发布。

没人写进文档，新人永远踩坑。

AI不知道这些“人设潜规则”，于是被当成破坏者踢出去。

你说它是缺陷吗？

技术上不是。

组织上，全是。

当测试工程师变成“系统翻译官”

李明最近常做一个梦。

梦见自己站在两个世界之间：一头是机器的绝对理性，一头是人类的混沌现实。

他戴着双语耳机，不停翻译：“它不是不想改，是上下文不够。”“他们不是不同意，是怕担责。”

醒来总觉得累。

因为在现实中，他没有耳机，也没有话语权。

有一次他试着在会上说：“咱们能不能先统一一下‘高风险交易’的定义？”

全场沉默。

产品经理低头刷手机，开发组长咳嗽两声，CTO说：“这个问题后续讨论。”

后来他懂了。

真正的障碍从来不是AI会不会犯错，而是组织愿不愿意面对自己有多乱。

我们训练AI要对齐意图，可我们自己的组织意图根本就是分裂的。

销售要快，合规要稳，技术想重构，老板要看报表增长。

AI听着这一堆矛盾指令，最后只能随机选一个执行——然后背锅。

说到这里，老贺其实也没完全想清楚。

到底是该让AI适应我们的混乱，还是该借AI逼我们变干净？

我知道有些团队已经放弃“完美流程”了。

他们干脆设立“AI缓冲岗”——专门派人清理Agent看不懂的脏数据、重写它理解不了的需求描述、甚至模拟它的思维路径去预判哪里会卡壳。

听起来像AI的仆人吧？

但换个角度看，这些人其实在做最高级的系统诊断。

他们不是在伺候AI。

他们是在用手抠出那些本该由制度解决的问题。

就像当年没有监控的时代，保安拿手电筒照每一个角落。

现在AI是那道光，而测试工程师，成了举手电的人。

测试的价值，正在被重新定义

以前，测试的价值是“挡Bug”。

现在，测试的价值可能是“显影”。

你想想，过去我们说“质量是构建出来的”，所以测试要左移。

可现在呢？

质量不再是某个节点的结果，而是整个生成过程的可观测性本身。

当AI开始写代码、改配置、关报警，我们就不能再问“这段代码对不对”，而要问“这个生成过程受控吗”。

我在讲ISTQB CT-GenAI测试的时候，总有人问：“贺老师，怎么保证AI输出稳定？”

我通常反问：“你们的需求文档能让实习生看懂吗？你们的日志格式能被新来的算法同学直接分析吗？”

如果不能，那你指望AI能稳定，是不是有点天真？

说白了，AI是个极端较真的实习生。

你糊弄它三天，它记你一辈子。

上周我去一家银行做TMMi预评估。

他们上了Agent做变更影响分析，结果两周内触发了47次误报。

运维骂，开发烦，管理层质疑投入产出比。

但我看了日志发现，每次误报背后都有故事：

有一次是因为数据库迁移没同步索引命名规范；

有一次是某个微服务偷偷改了返回结构，没走评审；

还有一次，纯粹是因为负责人休假前口头交代“临时绕一下”，忘了还原。

你看，AI没报错，它报的是‘信任衰减’。

它不是在制造噪音，是在播放一段被所有人忽略的杂音合集。

现在越来越多公司来找我聊“AI测试转型”。

他们问：“老贺，我们要不要建AI测试平台？”

我总忍不住问回去：“你们现在的冒烟测试能每天稳定跑完吗？你们的需求变更记录完整吗？你们敢让新人独立负责一个发布吗？”

如果答案是否定的，那我建议你先别碰AI。

不然你会以为是技术不行，其实是把脓包扎破了而已。

我不是反对技术进步。

我是怕你们把一面镜子当成了锤子——本该用来照见问题，却被拿来砸向执行层。

写到这里，老贺自己也犹豫了。

我们是不是太苛责AI了？

毕竟，它只是个工具。

可转念一想，刀也能切菜也能伤人，但我们不会怪菜太滑吧？

或许真正该问的不是‘AI为什么失败’，而是‘为什么我们容忍失败这么久却视而不见’？

李明后来换了岗位，不做测试负责人了。

他现在头衔叫“智能体行为协调主管”——听着挺玄，其实就是继续当翻译。

只不过这次，他学会了带录音笔进会场。

不是为了取证，是为了回头放给自己听，还可以给AI进行快速总结，标记出：

那些年大家是怎么一本正经地否认问题存在的。

前几天他给我打电话，声音很轻：“老贺，你说我现在干的事，还算测试吗？”

我没回答。

我想起二十年前，我在产线对着一台老服务器重启第七次时，也有同事问我：“你这算修电脑还是保平安？”

那时候我觉得是个笑话。

现在我知道，有些工作从来看不见光，但它一直在撑着系统的最后一口气。

所以最后，老贺也只能留下一个问题：

当你把AI放进系统那一刻，你是希望它帮你做事，还是希望它帮你看见真相？

如果是后者，你准备好承受那份清醒了吗？

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长专注AI时代的软件测试方法论与实践

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可

你怕AI 测试掀桌子吗？说AI 测试不靠谱可能只是表面现象！

凌晨两点的会议室，两个AI在打架

我以为是测AI，其实是被AI测了

当测试工程师变成“系统翻译官”

测试的价值，正在被重新定义

文章评论