99%的测试将被AI取代，但那个最“笨”的边界测试员，AI永远学不会

2026年5月30日 250点热度 0人点赞 0条评论

📖导读

在AI测试工具以"每分钟跑完上万条用例、99.7%通过率"的狂飙之势席卷软件行业时，一个被绝大多数人忽略的认知陷阱正在浮出水面：AI的效率神话，正在掩盖一个致命的业务语义盲区。

本文通过测试员"老张"的真实事故切入——AI"智能跳过"了用户输入年龄为负数的边界场景，导致生产环境数据泄露。这个看似"异常"的负数，恰恰是合规检查的防波堤，而AI不懂这个背景。领测老贺由此展开深度追问：当AI把测试效率提升了95%、投资回报率达到10.3倍时，测试员的真正价值在哪里？

答案令人清醒：AI懂模式，但它不懂"荒谬"。它可以在几秒内识别几百个"疑似异常"，却无法判断这些异常的"重量"——哪些涉及合规风险？哪些关联业务语义中的防波堤？哪些是国标允许的特殊字符（如身份证号末尾的"X"）？

文章提出了一个颠覆性的职业重构方向：测试员不应再是"用例执行工具人"，而应进化成为"业务异常猎手"——那些能向机器解释"为什么这个看似正常的边界必须测"的人。核心能力从跑完多少条用例，转向向AI解释业务荒谬感的预判。

与此同时，全文坦诚地抛出了一个尚未解决的终极拷问：组织愿意为这最后一道防线买单吗？ 当效率成为唯一度量标准，"无法被度量的价值"还有多少生存空间？这不仅是技术问题，更是组织治理、责任界定与职业伦理的深层博弈。老张的老板说"以后你负责告诉AI该跑哪些"，但这只是一个开始。

凌晨三点的荒谬感

凌晨三点，老张盯着屏幕上的测试报告，AI在几分钟内跑完了上万条用例。绿色的通过率曲线漂亮得像一幅抽象画——99.7%，比他手动测一个月的覆盖率还高。他揉了揉眼睛，心想这玩意儿真神了。

刚想合上电脑回家，手机震动了。

生产环境报警。一个他以前手动测过的边界值被AI"智能跳过"，导致用户数据泄露。那个场景他太熟悉了——用户输入年龄为负数时，系统应该报错，但AI判定这是"异常输入"，直接在测试报告中标记为"已过滤"，跳过了验证。

结果生产环境真的出了问题。一个误操作的管理员把某个字段填成了负数，系统没拦住，用户数据全乱了。

老张后来打电话给我，声音有点哑："贺老师，我做错什么了？我以为上这套AI测试平台能解放团队，结果……"

AI给了99%的自信，却踩中了那1%的语义陷阱。

这事儿，老贺我得琢磨琢磨。

效率神话下的隐痛

老张的困境，不是他一个人的。

过去一年，我接到的咨询电话里，有一半都在问同一个问题："AI测试这么猛，我们团队还有存在价值吗？"Tricentis的报告说，Testim能把测试用例创建时间从1-2天压缩到20-30分钟，95%的效率提升。Katalon的数据更吓人——10.3倍的投资回报率，一年执行4040万次测试，节省1060万小时。这些数字像一把悬在头顶的剑，闪着寒光。

老张和很多测试员一样，曾以为自己的价值就是跑完那些繁琐的边界用例。你填0、填-1、填最大值、填空值，一个字段测20种情况，一天下来眼睛都花了。这活儿苦，但它是"安全感"——你知道这些边界有人守着。然后AI来了，它不分昼夜，不喊累，不跳槽，几分钟干完你一个月的活。你的"苦劳"在效率面前，突然变得毫无意义。

无法被度量的价值，最终被算法定价为零。

但老张漏掉了一个关键问题：AI跳过的那些边界，真的是"低价值"吗？

凌晨三点的老张，盯着那条红色的报警信息，突然意识到一个荒谬的事实：他以前手动测这个边界时，从来没想过"为什么这个负数要测"。他只是习惯性地填进去，看系统报不报错。现在AI替他"聪明"地跳过了，他才意识到——这个边界背后，藏着业务语义的防波堤。

那个负数不是普通的边界值。它关联着一个合规检查：当年龄为负数或零时，系统应该触发"数据录入异常"的告警，而不是直接跳过。这是监管部门的要求，是为了防止人为篡改数据。AI不知道这个背景，它只是按照训练数据的分布，把"负数"归类为"异常"，然后"聪明"地过滤掉了。

一场关于"幻觉"的争论

去年，我参与了CT-GenAI测试大纲的本地化讨论。第3章有个概念叫"幻觉"（Hallucination），指的是大语言模型生成的内容存在事实性错误或与任务不相关。

当时有个专家问了一个尖锐的问题：测试工程师怎么检测幻觉？

大纲给出的方法包括交叉验证、领域专家咨询、一致性检验。但我在讨论中加了一条：利用已知的正确答案集进行自动化比对。比如你有一组"标准问题-标准答案"对，每次模型输出后自动比对，就能批量发现幻觉。这个思路后来被整合进了大纲的实践环节。

但更深层的问题是：你永远无法100%消除幻觉，只能管理它。这和传统软件测试的思维完全不同——传统测试追求"零缺陷"，AI测试追求"可接受的缺陷率"。讨论中还有一场争论让我印象深刻：有人认为AI只需K2级别理解模式即可，有人坚持必须K3级别动手验证语义。

什么叫K2和K3？简单说，K2是"我知道这个概念"，K3是"我能动手验证这个概念"。争论的焦点是：AI生成的测试用例，人类要不要逐条复核？

一方说：AI已经够聪明了，复核是浪费时间。另一方说：AI不懂业务语义，不复核迟早出事。

如果AI能系统性生成对抗样本，人类手工边界值测试的价值会进一步被压缩，但"业务语义上的不合理"仍需人类解读。

什么意思？AI懂模式，但它不懂"荒谬"。

AI不懂的那个边界

去年我帮一个金融公司做AI测试落地咨询时，用DeepSeek分析了一批测试日志。它能在几秒钟内识别出几百个"疑似异常"，效率惊人。但当我问它"这些异常里，哪些可能涉及合规风险"时，它给了一个笼统的回答："建议人工复核。"

那一刻我明白了：AI可以帮你找到问题，但它不会替你判断问题的"重量"。

回到老张那个事故。用户输入年龄为负数，AI判定这是"异常输入"，直接过滤跳过。从技术角度看，这个判断没毛病——负数确实不是正常年龄。但从业务角度看呢？这个字段关联着合规检查，AI不知道这个背景。

边界值测试不是体力活，是对业务荒谬感的预判。

你想想，传统系统为什么可预测？因为输入确定，输出可预期。但大模型的行为取决于训练数据的分布，它不会主动问你："这个负数，是不是有什么特殊含义？"它只是默默地、高效地、自信地把这个边界"优化"掉了。

这让我想起CT-GenAI大纲第5章的一个观点：在测试组织开展生成式AI的部署与集成时，伦理、合规、数据安全、人员培训都是必须考虑的因素。技术问题反而是最容易解决的，真正难的是组织层面。比如：AI生成的测试报告里有错误，出了事故谁负责？这些问题大纲都有涉及，但没有标准答案——因为行业本身还在摸索。

测试员的最后一道防线

所以，老张们该往哪儿退？

去年我帮一个有20个Scrum团队的公司做敏捷测试转型。他们的测试经理很困惑："Scrum里没有测试经理这个角色，我该干什么？"我的建议是：从"分配测试任务的人"转变为"建立测试能力的人"。

具体来说：定义团队级的测试标准、建立测试实践社区（CoP）、推动跨团队的测试工具选型。半年后回访，他说这是他职业生涯中最成功的转型——虽然头衔没变，但影响力扩大了10倍。这个思路同样适用于AI时代。测试员不该被清零，而该从"执行者"重构为"业务异常猎手"。

你的核心能力，不是跑完多少条测试用例，而是向机器解释"为什么这个看似正常的边界必须测"。比如：合规检查中的"特殊场景"——AI可能把身份证号末尾的"X"判定为"异常字符"，但你得告诉它，这是国标，不是错误。业务逻辑中的"荒谬值"——AI可能跳过"年龄-1"的验证，但你得追问，这是否涉及数据篡改风险。

用户行为中的"极端路径"——AI可能优化掉"用户连续点击100次"的场景，但你得判断，这是否是压力测试的必要项。

老贺越来越确信：真正不可或缺的测试员，是那些能向机器解释"为什么这个边界必须测"的人，而非仅执行用例的工具人。