测试人最大的悲哀：只知道怎么测试，但不知道为什么测试

2026年5月12日 258点热度 0人点赞 0条评论

📖导读

软件测试人员的核心价值已从“执行效率”转向“决策质量”。传统的量化指标（如测试用例数、覆盖率）已经无法体现测试人员在风险预判、复杂决策中的关键作用，甚至可能让团队陷入“用数据证明存在”的误区。在AI时代，测试人员真正的护城河是记录并复盘自己的“决策日志”，将模糊的直觉和经验转化为可追溯、可进化的逻辑链条，从而在AI擅长执行的低维任务之上，构建起不可替代的高维决策优势。

测试思维的价值锚点已从执行效率转向决策质量

一根针，扎破了十年的信仰

会议室里空调开得很足，老周却觉得后背发汗。投影仪的光打在年轻总监的脸上，对方推了推眼镜，手指点着PPT上一页页图表：“老周，你负责的这个核心模块，这次上线零故障，成绩不错。但我想知道，你的测试覆盖率是多少？架构层专项测试的投入产出比怎么算？你那个‘凭直觉发现隐患’的过程，能写成标准流程让大家复用吗？”

老周张了张嘴。他想起三个月前那个深夜，自己盯着架构图突然冒冷汗——某个服务的熔断机制在极端流量下会形成闭环死锁。这个念头毫无征兆，他立刻拉上开发复盘，改了代码。后来证明，正是这个改动避免了上线后的连锁雪崩。

可现在，他无法把这个“半夜惊醒”量化成表格里的数字。

“如果这个直觉不能被流程化，”总监翻了翻下一份报告，“我怎么向上面证明，你的不可替代性在哪里？”

老周咽下后面的话。十五年了，他一直信奉一个最简单的道理：项目平平安安上线，就是测试人最大的面子。可今天，平平安安成了“没有证据”。

数据越漂亮，骨头越软

说实话，老周不是不重视数据。早年他也追过覆盖率，算过缺陷密度。但近两年，他发现事情有点不对劲。

上个月，他参与了一个企业级项目的复盘。项目经理自豪地展示：测试用例数增长40%，自动化执行率92%，缺陷修复周期缩短到2.1天。数据漂亮得能印在年报里。可老周问了一个问题：“这个月，我们预防了哪个可能宕机的风险？”

会议室安静了。没人能回答。因为他们所有指标，都盯着“已发生的事”——用例执行了多少，缺陷抓了多少，修复多快。没有任何一个KPI，衡量“没发生的事情因为你的干预而避免了”。

我们试图用数字证明存在，却最终在数字中迷失了意义。

这让我想起去年帮一家制造业企业做TMMi评估。他们Level 2的文档齐全得能当教材，测试策略、计划、监控报告，每页都盖着红章。我抽查一个工程师：“这个测试策略，你平时用吗？”

他笑了：“贺老师，那是质量管理部写来应付审核的。我们自己有一套‘真正好用’的土办法。”

那套“土办法”，往往就是老周们所谓的“直觉”和“经验”——那些无法填进表格，却真能救命的东西。

我们正在用AI的尺子，量自己的灵魂

去年CT-GenAI大纲讨论时，有个争论我印象很深。关于“提示词工程”章节，有专家说K2级别“理解概念”就够了，何必动手写？我坚决要求加实验环节。

“你们想想，”我说，“如果考生只会背‘提示链设计原则’，明天领导递给他一个DeepSeek说‘帮我分析这个用户故事的风险’，他连怎么开口问都不知道。测试AI和‘被AI测试’的区别，就在这动手的一课。”

最终我们加了实验。后来有考生反馈：“贺老师，正是那节课我意识到，我过去十年干的很多‘测试设计’，其实就是高级版的‘填模板’。AI三分钟生成一百条用例，比我加班两天还全。我吓醒了。”

老周们正在经历同样的惊醒。我们拼命想把“直觉”拆解成步骤，把“风险判断”翻译成规则，以为这样就能证明价值。但量化是思维的墓志铭，却是生存的通行证——我们亲手把大脑里最值钱的部分（不确定性决策），打包成AI最擅长处理的低维任务（规则执行）。

看两个数据：Katalon报告说82%的QA从业者认为AI未来3-5年很重要；JetBrains却显示73%的人表示CI/CD流程中完全不用AI。这不矛盾吗？不矛盾。我们一边焦虑地谈论AI，一边把工作整理得规规整整，好让AI明天就能接手——然后问：“我的价值在哪里？”

AI淘汰的不是思维，是低维度的重复判断。而我们正忙着把自己的思维，削足适履地塞进低维度。

从“证明工作量”到“记录决策逻辑”

所以问题不在“要不要量化”，而在“量化什么”。

传统测试指标，度量的是“动作”——用例数、执行率、缺陷数。这些动作的价值，AI三分钟就能复现。但动作背后的“决策”——为什么选这个场景？为什么认为这是高风险？为什么在众多问题中优先处理这个？

这些无法用数字直接衡量，却才是老周们真正的护城河。

我在TMMi评估中常说一句话：过程改进必须是组织自驱动的，外部评估只是催化剂。同样的道理，思维的价值证明，不能依赖外部强加的KPI表格，而要从内部建立“决策质量”的锚点。

怎么建？不是写更漂亮的报告，而是养成一个习惯：记录决策日志。

不是“今日执行用例200条”，而是“今日判断支付模块的并发测试需增加极端值场景，因发现第三方回调接口有隐藏超时机制，可能引发资金状态不一致”。甚至记下当时的犹豫：“其实我也没有十足把握，但根据上次类似事故的教训，我觉得这里像”。

这份日志不为向上汇报，而为留存思考的轨迹。当你下次被问“你的价值是什么”，你可以指着这条日志说：“这个判断，如果当时我错了，预估会造成500万资损。现在它没发生，因为我在那个时间点做了这个决策。”

这不叫量化思维，这叫让决策逻辑可追溯、可复盘、可进化。

今天，你愿意开始写决策日志吗？

我见过太多测试团队，为了证明价值，把大量精力花在“制造可量化的证据”上。结果呢？AI一来，这些证据生产链最先被自动化。老周们不仅没变得更不可替代，反而亲手给自己打造了一口完美的棺材。

真正的出路，是主动把战场转移到AI难于涉足的地方：复杂系统的风险定义、模糊需求下的预判、跨领域知识的整合决策。这些不是“不量化”，而是需要新的度量语言——比如用“反事实推演”的损失预估，来侧面印证决策质量。

“如果没有这次测试，系统会怎样？”

这个问题，比“你测了多少用例”有力得多。它逼你回溯思考链条，逼你向外行人解释风险，逼你把模糊的“感觉”变成有因果的“判断”。

老周后来怎么样了？我不知道。但我想告诉他，也告诉所有正在填KPI表格的测试人：

测试思维的价值锚点已从执行效率转向决策质量。你的不可替代性，不来源于你写了多少条用例，而来源于你在关键节点上，做出了AI根本想不到、或不敢做的判断——并且，你能说清为什么。

所以，今天你愿意关掉那个覆盖率报表，打开一个空白文档，写下今天最关键的一次风险判断吗？就写一句话：“我当时认为__有风险，因为__，如果错了大概会__。”

这个动作本身，就是反抗。也是对老周们最好的致敬。

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长

专注AI时代的软件测试方法论与实践

AI测试\自动化测试\质量保障

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可