测试人最大的悲哀:只知道怎么测试,但不知道为什么测试

2026年5月12日 22点热度 0人点赞 0条评论

📖导读

软件测试人员的核心价值已从“执行效率”转向“决策质量”。传统的量化指标(如测试用例数、覆盖率)已经无法体现测试人员在风险预判、复杂决策中的关键作用,甚至可能让团队陷入“用数据证明存在”的误区。在AI时代,测试人员真正的护城河是记录并复盘自己的“决策日志”,将模糊的直觉和经验转化为可追溯、可进化的逻辑链条,从而在AI擅长执行的低维任务之上,构建起不可替代的高维决策优势。

 

测试思维的价值锚点已从执行效率转向决策质量


一根针,扎破了十年的信仰

会议室里空调开得很足,老周却觉得后背发汗。投影仪的光打在年轻总监的脸上,对方推了推眼镜,手指点着PPT上一页页图表:“老周,你负责的这个核心模块,这次上线零故障,成绩不错。但我想知道,你的测试覆盖率是多少?架构层专项测试的投入产出比怎么算?你那个‘凭直觉发现隐患’的过程,能写成标准流程让大家复用吗?”

老周张了张嘴。他想起三个月前那个深夜,自己盯着架构图突然冒冷汗——某个服务的熔断机制在极端流量下会形成闭环死锁。这个念头毫无征兆,他立刻拉上开发复盘,改了代码。后来证明,正是这个改动避免了上线后的连锁雪崩。

可现在,他无法把这个“半夜惊醒”量化成表格里的数字。

“如果这个直觉不能被流程化,”总监翻了翻下一份报告,“我怎么向上面证明,你的不可替代性在哪里?”

老周咽下后面的话。十五年了,他一直信奉一个最简单的道理:项目平平安安上线,就是测试人最大的面子。可今天,平平安安成了“没有证据”。


数据越漂亮,骨头越软

说实话,老周不是不重视数据。早年他也追过覆盖率,算过缺陷密度。但近两年,他发现事情有点不对劲。

上个月,他参与了一个企业级项目的复盘。项目经理自豪地展示:测试用例数增长40%,自动化执行率92%,缺陷修复周期缩短到2.1天。数据漂亮得能印在年报里。可老周问了一个问题:“这个月,我们预防了哪个可能宕机的风险?”

会议室安静了。没人能回答。因为他们所有指标,都盯着“已发生的事”——用例执行了多少,缺陷抓了多少,修复多快。没有任何一个KPI,衡量“没发生的事情因为你的干预而避免了”。

我们试图用数字证明存在,却最终在数字中迷失了意义

这让我想起去年帮一家制造业企业做TMMi评估。他们Level 2的文档齐全得能当教材,测试策略、计划、监控报告,每页都盖着红章。我抽查一个工程师:“这个测试策略,你平时用吗?”

他笑了:“贺老师,那是质量管理部写来应付审核的。我们自己有一套‘真正好用’的土办法。”

那套“土办法”,往往就是老周们所谓的“直觉”和“经验”——那些无法填进表格,却真能救命的东西。


我们正在用AI的尺子,量自己的灵魂

去年CT-GenAI大纲讨论时,有个争论我印象很深。关于“提示词工程”章节,有专家说K2级别“理解概念”就够了,何必动手写?我坚决要求加实验环节。

“你们想想,”我说,“如果考生只会背‘提示链设计原则’,明天领导递给他一个DeepSeek说‘帮我分析这个用户故事的风险’,他连怎么开口问都不知道。测试AI和‘被AI测试’的区别,就在这动手的一课。”

最终我们加了实验。后来有考生反馈:“贺老师,正是那节课我意识到,我过去十年干的很多‘测试设计’,其实就是高级版的‘填模板’。AI三分钟生成一百条用例,比我加班两天还全。我吓醒了。”

老周们正在经历同样的惊醒。我们拼命想把“直觉”拆解成步骤,把“风险判断”翻译成规则,以为这样就能证明价值。但量化是思维的墓志铭,却是生存的通行证——我们亲手把大脑里最值钱的部分(不确定性决策),打包成AI最擅长处理的低维任务(规则执行)。

看两个数据:Katalon报告说82%的QA从业者认为AI未来3-5年很重要;JetBrains却显示73%的人表示CI/CD流程中完全不用AI。这不矛盾吗?不矛盾。我们一边焦虑地谈论AI,一边把工作整理得规规整整,好让AI明天就能接手——然后问:“我的价值在哪里?”

AI淘汰的不是思维,是低维度的重复判断。而我们正忙着把自己的思维,削足适履地塞进低维度。


从“证明工作量”到“记录决策逻辑”

所以问题不在“要不要量化”,而在“量化什么”。

传统测试指标,度量的是“动作”——用例数、执行率、缺陷数。这些动作的价值,AI三分钟就能复现。但动作背后的“决策”——为什么选这个场景?为什么认为这是高风险?为什么在众多问题中优先处理这个?

这些无法用数字直接衡量,却才是老周们真正的护城河。

我在TMMi评估中常说一句话:过程改进必须是组织自驱动的,外部评估只是催化剂。同样的道理,思维的价值证明,不能依赖外部强加的KPI表格,而要从内部建立“决策质量”的锚点。

怎么建?不是写更漂亮的报告,而是养成一个习惯:记录决策日志

不是“今日执行用例200条”,而是“今日判断支付模块的并发测试需增加极端值场景,因发现第三方回调接口有隐藏超时机制,可能引发资金状态不一致”。甚至记下当时的犹豫:“其实我也没有十足把握,但根据上次类似事故的教训,我觉得这里像”。

这份日志不为向上汇报,而为留存思考的轨迹。当你下次被问“你的价值是什么”,你可以指着这条日志说:“这个判断,如果当时我错了,预估会造成500万资损。现在它没发生,因为我在那个时间点做了这个决策。”

这不叫量化思维,这叫让决策逻辑可追溯、可复盘、可进化


今天,你愿意开始写决策日志吗?

我见过太多测试团队,为了证明价值,把大量精力花在“制造可量化的证据”上。结果呢?AI一来,这些证据生产链最先被自动化。老周们不仅没变得更不可替代,反而亲手给自己打造了一口完美的棺材。

真正的出路,是主动把战场转移到AI难于涉足的地方:复杂系统的风险定义、模糊需求下的预判、跨领域知识的整合决策。这些不是“不量化”,而是需要新的度量语言——比如用“反事实推演”的损失预估,来侧面印证决策质量。

“如果没有这次测试,系统会怎样?”

这个问题,比“你测了多少用例”有力得多。它逼你回溯思考链条,逼你向外行人解释风险,逼你把模糊的“感觉”变成有因果的“判断”。

老周后来怎么样了?我不知道。但我想告诉他,也告诉所有正在填KPI表格的测试人:

测试思维的价值锚点已从执行效率转向决策质量。你的不可替代性,不来源于你写了多少条用例,而来源于你在关键节点上,做出了AI根本想不到、或不敢做的判断——并且,你能说清为什么。

所以,今天你愿意关掉那个覆盖率报表,打开一个空白文档,写下今天最关键的一次风险判断吗?就写一句话:“我当时认为__有风险,因为__,如果错了大概会__。”

这个动作本身,就是反抗。也是对老周们最好的致敬。

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长

专注AI时代的软件测试方法论与实践

AI测试\自动化测试\质量保障

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论