脱离测试执行去搞契约设计,是AI测试转型的“毒药”

2026年5月24日 13点热度 0人点赞 0条评论

📖导读

当前测试行业的一个流行趋势:“测试人员应完全脱离测试执行,转向纯设计角色”。领测老贺将此趋势定性为“毒药”。

首先应承认AI在自动化测试执行(如用例生成、报告输出)上的巨大优势,并且“设计比执行高级”的逻辑推导看似合理。然而,作者精准地指出了这一逻辑的致命缺陷:它错误地假设“设计”与“执行”可以彻底割裂,且设计无需通过执行反馈来自我校准。脱离真实系统环境的设计,其“契约”根本无法覆盖现实世界的复杂性与非线性混沌,导致验证失效。

老贺并未完全否定设计转型的价值,而是提出了更高级的出路:“认知升维”。真正的安全边界不是画图与执行的简单分工,而是设计者有能力将执行升维为“建模”——读懂系统日志的模式、识别延迟分布的统计规律、构建故障传播的数学模型。指出顶级团队中的设计者并非“不执行”,而是在更高维度上执行,即通过可观测性闭环和概率推演来维持系统直觉。

盲目追求纯设计转型的团队将自食其果,而真正能活下来的是那些保留了“认知升维”能力的人。他们不是不写代码,而是能与AI协同,通过持续的“验证仪式”校准抽象模型,使自己成为理解系统行为模式的“系统翻译者”,而非被优化的“看客”。

很多技术大会都在鼓吹测试人转型做纯设计,但这套叙事其实是毒药。当你把执行全扔给AI,只顾画架构图,就正在滑向无人察觉的悬崖。


千万别信测试人该完全转向纯设计的鬼话。

现在打开任何一个技术大会的演讲PPT,“测试人员要向契约设计者转型”几乎成了标准开场白。AI能写代码了,能跑测试用例了,能出报告了,然后呢?测试人就该优雅地退到幕后,画架构图、定契约边界、做质量布道——这套叙事听起来很高级,但老贺我今天必须说:这玩意儿是毒药,而且是你亲手喂给自己的那种。


那个听起来很美的“高级转型”

先承认,这个论调不是空穴来风。

Capgemini《World Quality Report 2026》(注:该报告为前瞻性预测,非当前实证数据)显示,47%的组织已经在用AI生成测试用例,比2024年涨了9个百分点。Meta的JiTTesting用AI搞即时测试生成,效率提升了4倍,还真抓出8个生产级bug。数据摆在这儿,测试执行确实在被AI接管,人类再跟机器比手速就是犯傻。

于是“设计比执行高级”的推论顺势而出: 执行是体力活,设计是脑力活;执行会被AI替代,设计才体现人的价值。测试人要想不被淘汰,就得往价值链上游走,去当那个“定规则的人”。

这逻辑有问题吗?表面没有。但有个致命的前提假设被悄悄埋进去了——它假设“设计”和“执行”是可以彻底割裂的两件事,而且设计不需要执行的反馈就能自我校准。

说白了,它把测试人员想象成了建筑设计师:画完图纸交给施工队,自己再也不用去工地。可软件系统不是钢筋水泥的房子,它是活的、变的、互相纠缠的。你在图纸上画的边界,在真实运行环境里可能完全是另一回事。


当设计者不再亲手触碰系统

去年 CrowdStrike 那事儿,850万台设备蓝屏,54亿美元损失。官方复盘报告里有个细节让我脊背发凉:那个有问题的更新包,在发布前的验证流程里,“所有自动化测试都通过了”。

所有。都。通过。

你猜怎么着?设计验证策略的人,根本没在真实的Windows生产环境上跑过那一行代码。他们不是没动手,而是他们设计的契约,根本没覆盖真实世界的混沌边界——那些非线性、高并发、时序敏感、状态耦合的边缘场景,不是靠“测试用例覆盖率”能枚举的,也不是靠“契约形式化”能预判的。系统行为的复杂性,从来不服从线性逻辑的规训。

这不是“没亲手跑代码”的问题,这是设计者对系统行为的非线性本质缺乏认知直觉的问题。直觉不是靠肌肉记忆单向生成的,它来自模式识别、日志聚类、历史缺陷图谱、异常波动的语义解读——这些,都是抽象认知的产物,而非仅靠身体接触的副产品。一个从未敲过一行代码的SRE,能从百万级指标中一眼看出某个服务的“心跳异常”;一个没写过自动化脚本的架构师,能从错误日志的语义分布中推断出并发瓶颈的根源——他们没“跑”过代码,但他们“读”过系统。

亲手执行,是构建系统直觉的重要通道之一,但绝非唯一通道。 你可以在IDE里单步调试过一次内存泄漏,你对“资源边界”的理解会更深;你也可以在ELK集群里分析过十万条超时日志,发现98%的失败都集中在同一个线程池饱和的时刻——这种直觉,同样是真实的,甚至更高级。真正的危险,不是没动手,而是没看见模式。


行业反例:Google、Netflix、SRE的“无代码设计者”为何成功?

有人说,那Google的SRE、Netflix的平台团队、微软的云架构组里,那么多不写代码的系统设计者,他们怎么没出事?

因为他们不是靠“轮换”活着,而是靠认知升维活着。

他们不写自动化脚本,但他们构建了系统行为的动态模型:服务依赖图谱、故障传播树、容量熵值模型、混沌注入的统计分布——这些,是比“测试用例”更底层的抽象语言。他们用数学建模替代了手动执行,用概率推演替代了经验试错,用可观测性闭环替代了人工复现。他们不是“不执行”,而是把执行升维成了建模

你见过Netflix的Chaos Monkey吗?它不是随机崩溃,是基于历史故障聚类生成的概率性扰动策略。它的设计者没亲手重启过一台机器,但他们知道:在72小时的运行周期内,哪个服务最可能在第47分钟因连接池耗尽而雪崩——这个洞察,来自对过去三年2100次故障的模式挖掘,而非一次手工压测。

真正的分水岭,从来不是“是否写代码”,而是“是否理解系统行为的统计规律与非线性响应”。AI能跑100万次测试,但无法理解为什么这100万次失败都发生在同一个并发边界上——除非有人教会它看模式。而教会AI看模式的,不是那些只会画契约图的人,是那些能从日志流中提取语义熵、从延迟分布中识别相变点、从错误码聚类中重构故障拓扑的人。

他们不执行,但他们在更高维度上执行


组织分化的隐性税

有人说,那让一部分人专职做设计、一部分人专职做执行不就行了?工业社会不都这么分工的吗?

工业社会分工的前提是:设计者和执行者之间有低成本、高保真的信息传递机制。 建筑师画完图,施工队按图施工,图纸是标准化的,材料是物理的,偏差是肉眼可见的。

软件系统呢?你设计的测试策略,到执行者那儿变成脚本,到AI那儿变成Prompt,每一层都在丢失语境。我见过一个“纯设计组”写的测试契约,要求验证“支付响应时间在500ms内”——执行组老老实实实现了,生产环境照样崩。为什么?因为设计者没说明白,这500ms是在空载测试环境还是在促销峰值场景,更没说明白:当库存服务延迟超过300ms时,支付网关的重试机制会触发级联超时,而这个非线性反馈链,不在任何契约文档里。

当组织分化为纯设计与纯执行,沟通损耗会彻底抵消AI带来的效率红利。 你以为省了执行的人力,实际上付了十倍的跨组扯皮成本。设计组抱怨执行组“不懂架构意图”,执行组抱怨设计组“脱离现实”,AI在中间忠实地执行双方共同制造的垃圾——它不犯错,它只是完美复现了人类认知的裂缝。


真正的出路:验证仪式与认知升维

好,那完全退回手工执行?当然是倒退。Meta那4倍效率提升不是假的,AI在执行层的优势是碾压级的。

但彻底抛弃执行?也是灾难。

真正的转型路径不是“非此即彼”,是“验证仪式+认知升维”。

验证仪式是什么?是你作为设计者,必须保留的最低限度的系统感知锚点。不是让你去写所有自动化脚本,是让你在设计完契约之后,至少有一次,亲手用AI工具跑一遍,用肉眼盯一遍,用直觉品一遍——不是为了验证用例,是为了校准你对系统行为的抽象模型是否还贴合现实。

认知升维是什么?是让设计者从“写用例”升维到“建模型”:从“这个功能是否通过”升维到“这个失败模式是否在历史聚类中出现过”;从“响应时间是否达标”升维到“延迟分布的尾部是否呈现幂律特征”;从“是否覆盖了边界”升维到“是否捕捉了系统在混沌边缘的共振频率”。

老贺这些年帮企业做AI测试落地咨询,凡是不搞轮换、硬分岗位的,半年内必出质量事故。但真正活下来的团队,不是靠“设计者轮流写脚本”,而是靠设计者能看懂日志里的模式、能从监控曲线里读出系统的情绪、能用统计语言描述不确定性

Meta JiTTesting那8个生产bug怎么发现的?不是靠AI瞎蒙,是靠人在回路里保留了“质疑-建模-验证-再抽象”的闭环。4倍效率的背后,是人类设计师没有放弃对系统行为的深度建模能力。


那个让人不舒服的边界问题

行,我知道有人会反驳:万一呢?万一系统高度标准化、万一设计者已有十年执行积累、万一AI真的具备了因果推理能力——“完全脱离执行”是不是就成立了?

技术上,这三个“万一”在特定场景下确实能凑齐。比如极度标准化的支付网关,比如干了十五年底层的老架构师,比如GPT-7真的学会了问“为什么”而不是只算“相关性”。

但问题在于:这些条件在当前技术现实中无法持续。 系统标准化?业务需求三个月一变。执行积累?技术栈五年一换。AI因果推理?我们现在连“为什么这个测试用例失败了”都解释不清,靠的是相关性堆砌的幻觉。

更可怕的是,“纯设计转型”的浪潮正在批量制造一种人:他们入行三年就被推去做“契约架构师”,从没在凌晨排过bug,从没在生产环境救过火,PPT画得漂亮,但一遇到真实系统的混沌就抓瞎。 这种人不是架构师,是漂浮在组织里的成本中心。两年后,第一批“纯设计转型”的测试人员将迎来大考——不是AI替代他们,是业务方发现他们设计的契约根本挡不住真实的质量风险。

因为他们没学会:直觉不是来自身体经验,而是来自对系统行为模式的持续抽象与验证。


两年后,谁会活下来?

让我给你一个具体的、可验证的、令人不安的预测:

到2027年底,现在盲目追求“纯设计转型”的测试团队里,至少有一半会秘密恢复“设计者必须参与关键验证”的潜规则,但不会公开承认。 他们会换一套说辞,叫“质量owner制”或者“端到端负责”,本质是同一回事——组织用隐性的执行责任,修补显性角色分工挖下的坑。

真正能活下来的,是保留了“认知升维”能力的那类人。他们不抗拒用DeepSeek生成测试用例,但一定会自己review一遍边界条件背后的统计分布;他们不反对AI自动执行,但一定会保留“每周至少一次亲手分析核心链路的异常聚类”的仪式;他们接受组织分工,但拒绝被钉死在“只设计不建模”的格子里。

两个模型共同承认测试人员必须向契约设计者转型,但在“是否保留对系统行为的深度抽象能力”上存在根本分歧。这一分歧本质上是“人类是否必须通过认知升维才能获得可靠质量判断”的认知之争。

老贺的判断很明确:必须升维。没有捷径。

当测试报告全是绿色,我们正滑向无人察觉的悬崖。把执行全扔给AI,测试人将沦为画废纸的看客——而看客,是第一批被优化的。

但如果你能从日志里看见模式,从延迟曲线里听见系统的呼吸,从失败聚类中重构出系统的真实拓扑——那你不是测试员,你是系统的翻译者

而翻译者,永远不会被淘汰。

 

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论