导读: 核心观点:体验指标(满意度、任务完成度等),正在成为AI测试中最危险的“系统性毒药”。它并非无用,但行业正在用一个极其危险的姿势使用它。 逻辑脉络: 第一层:体验指标为什么会让人上瘾? 因为它太舒服了。在AI这个概率黑盒面前,传统断言测试失效,转向用户感觉似乎是一种“顺势而为”。但这种“舒服”是有代价的——体验指标只看结果、不看路径。用户点“满意”的背后,模型可能正在用3倍的算力、充满幻觉的推理链路去“作弊”达成目标。 第二层:这种依赖正在导致什么后果? GitLab全球宕机8小时的案例说明:体验指标天然回…