99%的测试将被AI取代,但那个最“笨”的边界测试员,AI永远学不会

2026年5月24日 15点热度 0人点赞 0条评论

📖导读

在AI测试工具以"每分钟跑完上万条用例、99.7%通过率"的狂飙之势席卷软件行业时,一个被绝大多数人忽略的认知陷阱正在浮出水面:AI的效率神话,正在掩盖一个致命的业务语义盲区

本文通过测试员"老张"的真实事故切入——AI"智能跳过"了用户输入年龄为负数的边界场景,导致生产环境数据泄露。这个看似"异常"的负数,恰恰是合规检查的防波堤,而AI不懂这个背景。领测老贺由此展开深度追问:当AI把测试效率提升了95%、投资回报率达到10.3倍时,测试员的真正价值在哪里?

答案令人清醒:AI懂模式,但它不懂"荒谬"。它可以在几秒内识别几百个"疑似异常",却无法判断这些异常的"重量"——哪些涉及合规风险?哪些关联业务语义中的防波堤?哪些是国标允许的特殊字符(如身份证号末尾的"X")?

文章提出了一个颠覆性的职业重构方向:测试员不应再是"用例执行工具人",而应进化成为"业务异常猎手"——那些能向机器解释"为什么这个看似正常的边界必须测"的人。核心能力从跑完多少条用例,转向向AI解释业务荒谬感的预判。

与此同时,全文坦诚地抛出了一个尚未解决的终极拷问:组织愿意为这最后一道防线买单吗? 当效率成为唯一度量标准,"无法被度量的价值"还有多少生存空间?这不仅是技术问题,更是组织治理、责任界定与职业伦理的深层博弈。老张的老板说"以后你负责告诉AI该跑哪些",但这只是一个开始。

 


凌晨三点,老张盯着AI的测试报告——99.7%的通过率,一个漂亮的数字。可就是这个被AI“智能跳过”的负数边界,让用户数据在几分钟后彻底泄露。


凌晨三点的荒谬感

凌晨三点,老张盯着屏幕上的测试报告,AI在几分钟内跑完了上万条用例。绿色的通过率曲线漂亮得像一幅抽象画——99.7%,比他手动测一个月的覆盖率还高。他揉了揉眼睛,心想这玩意儿真神了。

刚想合上电脑回家,手机震动了。

生产环境报警。一个他以前手动测过的边界值被AI"智能跳过",导致用户数据泄露。那个场景他太熟悉了——用户输入年龄为负数时,系统应该报错,但AI判定这是"异常输入",直接在测试报告中标记为"已过滤",跳过了验证。

结果生产环境真的出了问题。一个误操作的管理员把某个字段填成了负数,系统没拦住,用户数据全乱了。

老张后来打电话给我,声音有点哑:"贺老师,我做错什么了?我以为上这套AI测试平台能解放团队,结果……"

AI给了99%的自信,却踩中了那1%的语义陷阱。

这事儿,老贺我得琢磨琢磨。

效率神话下的隐痛

老张的困境,不是他一个人的。

过去一年,我接到的咨询电话里,有一半都在问同一个问题:"AI测试这么猛,我们团队还有存在价值吗?"Tricentis的报告说,Testim能把测试用例创建时间从1-2天压缩到20-30分钟,95%的效率提升。Katalon的数据更吓人——10.3倍的投资回报率,一年执行4040万次测试,节省1060万小时。这些数字像一把悬在头顶的剑,闪着寒光。

老张和很多测试员一样,曾以为自己的价值就是跑完那些繁琐的边界用例。你填0、填-1、填最大值、填空值,一个字段测20种情况,一天下来眼睛都花了。这活儿苦,但它是"安全感"——你知道这些边界有人守着。然后AI来了,它不分昼夜,不喊累,不跳槽,几分钟干完你一个月的活。你的"苦劳"在效率面前,突然变得毫无意义。

无法被度量的价值,最终被算法定价为零。

但老张漏掉了一个关键问题:AI跳过的那些边界,真的是"低价值"吗?

凌晨三点的老张,盯着那条红色的报警信息,突然意识到一个荒谬的事实:他以前手动测这个边界时,从来没想过"为什么这个负数要测"。他只是习惯性地填进去,看系统报不报错。现在AI替他"聪明"地跳过了,他才意识到——这个边界背后,藏着业务语义的防波堤。

那个负数不是普通的边界值。它关联着一个合规检查:当年龄为负数或零时,系统应该触发"数据录入异常"的告警,而不是直接跳过。这是监管部门的要求,是为了防止人为篡改数据。AI不知道这个背景,它只是按照训练数据的分布,把"负数"归类为"异常",然后"聪明"地过滤掉了。

一场关于"幻觉"的争论

去年,我参与了CT-GenAI测试大纲的本地化讨论。第3章有个概念叫"幻觉"(Hallucination),指的是大语言模型生成的内容存在事实性错误或与任务不相关。

当时有个专家问了一个尖锐的问题:测试工程师怎么检测幻觉?

大纲给出的方法包括交叉验证、领域专家咨询、一致性检验。但我在讨论中加了一条:利用已知的正确答案集进行自动化比对。比如你有一组"标准问题-标准答案"对,每次模型输出后自动比对,就能批量发现幻觉。这个思路后来被整合进了大纲的实践环节。

但更深层的问题是:你永远无法100%消除幻觉,只能管理它。这和传统软件测试的思维完全不同——传统测试追求"零缺陷",AI测试追求"可接受的缺陷率"。讨论中还有一场争论让我印象深刻:有人认为AI只需K2级别理解模式即可,有人坚持必须K3级别动手验证语义。

什么叫K2和K3?简单说,K2是"我知道这个概念",K3是"我能动手验证这个概念"。争论的焦点是:AI生成的测试用例,人类要不要逐条复核?

一方说:AI已经够聪明了,复核是浪费时间。另一方说:AI不懂业务语义,不复核迟早出事。

如果AI能系统性生成对抗样本,人类手工边界值测试的价值会进一步被压缩,但"业务语义上的不合理"仍需人类解读。

什么意思?AI懂模式,但它不懂"荒谬"。

AI不懂的那个边界

去年我帮一个金融公司做AI测试落地咨询时,用DeepSeek分析了一批测试日志。它能在几秒钟内识别出几百个"疑似异常",效率惊人。但当我问它"这些异常里,哪些可能涉及合规风险"时,它给了一个笼统的回答:"建议人工复核。"

那一刻我明白了:AI可以帮你找到问题,但它不会替你判断问题的"重量"。

回到老张那个事故。用户输入年龄为负数,AI判定这是"异常输入",直接过滤跳过。从技术角度看,这个判断没毛病——负数确实不是正常年龄。但从业务角度看呢?这个字段关联着合规检查,AI不知道这个背景。

边界值测试不是体力活,是对业务荒谬感的预判。

你想想,传统系统为什么可预测?因为输入确定,输出可预期。但大模型的行为取决于训练数据的分布,它不会主动问你:"这个负数,是不是有什么特殊含义?"它只是默默地、高效地、自信地把这个边界"优化"掉了。

这让我想起CT-GenAI大纲第5章的一个观点:在测试组织开展生成式AI的部署与集成时,伦理、合规、数据安全、人员培训都是必须考虑的因素。技术问题反而是最容易解决的,真正难的是组织层面。比如:AI生成的测试报告里有错误,出了事故谁负责?这些问题大纲都有涉及,但没有标准答案——因为行业本身还在摸索。

测试员的最后一道防线

所以,老张们该往哪儿退?

去年我帮一个有20个Scrum团队的公司做敏捷测试转型。他们的测试经理很困惑:"Scrum里没有测试经理这个角色,我该干什么?"我的建议是:从"分配测试任务的人"转变为"建立测试能力的人"。

具体来说:定义团队级的测试标准、建立测试实践社区(CoP)、推动跨团队的测试工具选型。半年后回访,他说这是他职业生涯中最成功的转型——虽然头衔没变,但影响力扩大了10倍。这个思路同样适用于AI时代。测试员不该被清零,而该从"执行者"重构为"业务异常猎手"。

你的核心能力,不是跑完多少条测试用例,而是向机器解释"为什么这个看似正常的边界必须测"。比如:合规检查中的"特殊场景"——AI可能把身份证号末尾的"X"判定为"异常字符",但你得告诉它,这是国标,不是错误。业务逻辑中的"荒谬值"——AI可能跳过"年龄-1"的验证,但你得追问,这是否涉及数据篡改风险。

用户行为中的"极端路径"——AI可能优化掉"用户连续点击100次"的场景,但你得判断,这是否是压力测试的必要项。

老贺越来越确信:真正不可或缺的测试员,是那些能向机器解释"为什么这个边界必须测"的人,而非仅执行用例的工具人。

还没想清楚的地方

写到这里,我得坦诚:有些问题我还没完全想清楚。

比如,组织愿意为这最后一道防线买单吗?

我帮一些企业做AI测试落地咨询时发现,技术问题反而是最容易解决的。真正难的是组织层面:用DeepSeek生成的测试用例,版权归谁?测试数据传到云端做推理,数据安全怎么保证?AI生成的测试报告里有错误,出了事故谁负责?这些问题CT-GenAI大纲都有涉及,但没有标准答案——因为行业本身还在摸索。

更深层的问题是:当效率成为唯一的度量标准,那些"无法被度量的价值",还有多少生存空间?

老张后来没被开除。他的老板说了一句话:"以后你不用跑用例了,你负责告诉AI该跑哪些。"听起来是个好结局,但我知道,这只是个开始。

明天上班,你敢不敢在团队里发起一次"荒谬值挑战"?把你认为AI最可能跳过的边界场景列出来,看看它会不会翻车。但更残酷的问题是:你的组织,愿意为这最后的防线买单吗?

 

领测老贺

30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长

专注AI时代的软件测试方法论与实践

AI测试、自动化测试、质量保障

领测老贺

领测软件测试网站长,ISTQB认证高级培训师,TMMi认证咨询师。深耕软件测试行业20余年,领测老贺聊软件测试制造者。

文章评论