📖导读
核心观点:AI测试工具带来的精确性,正在成为一种极具迷惑性的“安全幻觉”,而工程师对这种工具盲目信任,恰恰是软件质量面临的最大风险。
老贺通过一个具体的技术事故开篇:测试工程师陈阳因相信AI生成的“100%路径覆盖、0错误”报告,忽略了“输入字段为空+并发写入”这种AI逻辑无法覆盖的“荒谬组合”,最终导致生产环境崩溃。这个案例的核心问题是——AI的精确性并非能力的证明,而是缺陷的伪装。
随后,老贺剖析了测试工程师在陷入这种“安全幻觉”后通常会采取的三种“自救”策略,并一一指出其谬误:
- 加大AI算力投入
:这如同让一个只会画圆的人,用更快的速度画出更多的圆,他永远无法画出三角形。AI基于已有模式运行,无法进行真正意义上的“跨界”思考。 - 盲目叠加人肉回归测试
:人类在看过AI的“完美路径”后会产生锚定效应,手动测试只是机械验证,而非探索未知。 - 引入更多AI工具互相验证
:这相当于用两台同一品牌的汽车,使用同一张地图导航,它们会一起开进同一条断头路,是一种算法层面的死循环。 最终,老贺提出了基于“不信任”的认知干预法:“事前验尸法”、“10分钟疯狂测试”和“建立怀疑触发器”。核心思想是:对抗算法局限性的武器,不是更强大的技术,而是人类对“完美”结果本能的、非理性的不信任。老贺呼吁测试工程师放下鼠标和AI工具,拿起笔和白纸,去主动寻找那些AI“看不见”的暗角。这是一篇充满危机感和行动导向的实战指南。
周三凌晨两点,测试工程师陈阳盯着AI生成的测试报告。屏幕冷冷的白光打在他疲惫的脸上,报告尾部那行绿色的“100%路径覆盖,0错误”显得格外刺眼。他揉了揉发酸的眼角,放心地在发布单上敲下了“通过”键。
三天后,生产环境轰然崩溃。复盘会上,屏幕上投出的根因分析让整个房间安静得只能听见空调的嗡嗡声——事故源于一个AI从未考虑过的组合:“输入字段为空+并发写入”。那一刻陈阳才猛然惊醒,手心全是冷汗。AI测试的风险不在其准确性不足,而在其精确性误导。那张完美的报告不是安全勋章,而是一剂最危险的麻醉剂,直接切断了你对未知的警觉。
那些看似合理的“自救”,正在挖深坟墓
当AI的精确性把你骗得团团转时,本能的反应往往不是反思,而是加码。我见过太多团队掉进这三个坑里,每一个都看似合理,实则致命。
第一个坑:加大AI算力投入。觉得测不准是因为场景不够多,于是疯狂增加服务器资源,让AI跑更多组合。动机合理——谁不想覆盖更全?但执行陷阱在于:AI是基于已有模式生成的。你喂给它10万个正常用例,它也只会繁殖出10万个长相相似的“正常变异体”。它永远无法跳出概率收敛的牢笼,去猜想那个连逻辑都不成立的“疯场景”。
第二个坑:盲目叠加人肉回归测试。看着AI报告心里发虚,于是抽调三个测试员,拿着长表单对着AI跑过的路径再跑一遍。这纯属自我安慰。人类一旦看过AI的“完美路径”,大脑就会产生锚定效应,你的手动测试只是在机械验证AI的逻辑,而不是去探索AI没看到的暗角。
第三个坑:引入更多AI工具互相验证。用DeepSeek跑完,再用Kimi查一遍,觉得两个大模型都通过就安全了。这叫“用确定性验证确定性”,是个死循环。两辆同品牌的车用同一张地图导航,它们都会开进同一条断头路。最优秀的测试工程师,正在被AI报告养废。你的不信任本能,就在这一次次“双保险”的舒适感中不可逆地退化。
唤醒不信任本能的三步认知手术
要对抗算法的概率收敛,你不能用技术手段,只能用认知手术。下面这三步,每一步都在强迫你从“相信”切换到“质疑”模式。
步骤一:事前验尸法。在测试启动前,假设AI最终给出的报告全是谎言,系统上线第一天就会暴毙。拉上产品和开发,花15分钟只回答一个问题:“它最可能是怎么死的?”把所有反直觉、非逻辑的死法写下来,比如“用户在断网状态下疯狂点击支付”。为什么这么做?因为只有先认定它会死,你才会去寻找AI不会看的暗角。踩坑提醒:别把这事变成抱怨大会,只写死因,不追责任。
步骤二:10分钟疯测试。拿一支笔、一张白纸,关掉所有AI工具。看着需求文档,刻意写出三个“绝不可能发生”的极端边界组合。比如“负数年龄+中文名特殊字符+同一秒两次提交”。当AI说100%覆盖,正是风险最猖獗的时刻。这10分钟你写出的用例,才是真正对抗未知的武器。为什么这么做?人类的不信任本能是一种对抗性认知直觉,它源于对“不对劲”的非理性嗅觉,只能通过这种刻意胡思乱想来唤醒。踩坑提醒:别追求这些疯用例的逻辑自洽,荒谬本身就是价值。
步骤三:建立怀疑触发器。给自己定一条死规矩:只要在报告里看到“100%”、“0错误”、“完全覆盖”这三个词,立刻触发强制审查。不看通过率,只看AI没测的放弃列表。为什么这么做?高容错率领域的军工实践证明,完美的数据是最危险的信号。踩坑提醒:这个方法在强交付期限的冲刺期可能难以执行,你会觉得“没时间怀疑”。但越没时间,越说明你正把命运交给了黑盒。
我亲手把项目交给了“精确的谎言”
老贺我在这行干了十几年,这领测老贺的名号不是白叫的,但我也栽过。前年带一个金融支付项目,团队刚引入AI测试平台,效率高得吓人。我用Kimi输入需求,几秒钟就生成了一整套用例,覆盖率报表漂亮得能直接拿去贴在投资人脸上。
当时我心里其实有点发虚,但看着那92%的覆盖率(来源:BrowserStack,2026年),我硬是把那点不对劲压下去了。我告诉团队:“AI都跑通了,人别再瞎掺和。”结果上线第二天,大批用户在跨时区转账时资金冻结。AI的所有用例都基于“本地时间正常”的预设,它根本不知道,当服务器时区与客户端时区在临界秒发生错位时,并发锁会彻底失效。
复盘时我盯着白板上的根因图,羞愧得脸发烫。我的错误不在操作层,而在认知层:我误以为覆盖了代码路径,就等于覆盖了业务现实。不信任不是缺陷,而是对抗算法概率收敛的终极武器。而我,亲手把这件武器扔进了垃圾桶。
数据越漂亮,越要盯紧暗角
别以为我说的只是个案。看看行业正在发生什么:47%的组织已经在使用AI生成测试用例,比去年猛增了9个百分点(来源:World QA Survey,2025年)。这意味将近一半的测试团队,正批量生产着基于同一逻辑模式的“安全幻觉”。
再看看工具厂商的宣传:BrowserStack的AI Agent能把自动化构建失败率降低40%,测试用例生成速度提升90%(来源:BrowserStack,2026年)。这数据绝对真实,但也绝对危险——它只告诉你AI在“已知世界”里多高效,却绝口不提AI在“未知世界”里的完全失明。
我帮几个团队做完“事前验尸”和“疯测试”干预后,效果很直观。定量上,他们在后续迭代中发现的深层边界Bug数量,比纯依赖AI时增加了3到5个。定性上更有意思,好几个测试员告诉我:“老贺,重新拿起笔写荒谬用例的那一刻,我忽然觉得我又活过来了,不再是个点按钮的机器。”这就是找回嗅觉的感觉。
现在,关掉AI,拿出一支笔
你越相信AI的精确,就越接近危险的边缘。如果你已经习惯了每天看着绿色通过率心安理得地下班,今天必须打断这个循环。
最小启动:现在,打开你最近一次通过的AI测试报告,找到那个你最依赖的“100%覆盖”模块。关掉屏幕上的AI面板,拿出一张白纸,花15分钟,手写出3个AI绝对不会测的“荒谬+并发”边界场景。不需要跑代码,只要写下你手心出汗时的那种直觉怀疑。
进阶路径:在下一次迭代规划会上,把这15分钟的手写环节定为强制流程,命名为“事前验尸10分钟”。团队必须先假设系统必死,再让AI去跑验证。
领测老贺
30年软件测试老兵 | ISTQB CT-GenAI测试本地化工作组组长专注AI时代的软件测试方法论与实践
AI测试,自动化测试,质量保障


文章评论