📖导读 许多测试人员误将“使用AI工具”等同于“拥有AI时代的核心能力”,这是致命的认知偏差。老贺认为,AI不会替代测试工程师,但会彻底暴露那些“以执行代替思考”的“伪测试者”。真正的职业危机并非来自AI,而是来自自身对“确定性执行”的路径依赖。 质量问题的瓶颈从来不在工具和覆盖率,而在于人的“想象力边界”。85%的重大线上事故源于“没人想过要测试这个组合”,这正是测试思维的价值所在——提出无人想到的问题。当下,测试左移和右移并非此消彼长,而是并行的质量补充手段。未来,执行型岗位将快速萎缩,取而代之的是具备“系统性…

2026年5月11日 0条评论 40点热度 0人点赞 领测老贺 阅读全文

导读 曾被奉为测试工程师核心竞争力、被视为神秘“直觉”或“天赋”的“测试思维”,实际上是一个从未被清晰定义的空洞概念。当AI技术能够以毫秒级速度穷举传统测试依赖的“边界值直觉”时,这一模糊概念的脆弱性暴露无遗。测试工程师的“护城河”瞬间瓦解,引发了前所未有的身份认同危机。 领测老贺指出,问题的核心并非AI是否具有“思维”,而是因为“测试思维”被过度神秘化,成为掩盖组织能力建设不足(如缺失质量标准、可复用资产、知识库)的借口。真正的挑战来自AI系统本身的“非确定性”行为,它彻底颠覆了基于确定性输入-输出模型的传统测试…

2026年5月8日 0条评论 67点热度 0人点赞 领测老贺 阅读全文

📖导读 AI越强大,测试工程师越不可或缺——因为AI可以干活,但无法承担责任。理由如下: 责任不可让渡:所有AI替代论忽略的根本问题是——谁为AI的失误负责?法律上,签字放行的人才承担法律责任,AI只是工具。 测试的本质不是找Bug,而是质量背书:测试工程师的核心价值在于“专业判断+承担责任”,这包含大量隐性知识和业务直觉,无法被训练数据替代。 AI带来新风险:非确定性与幻觉:大模型的概率性输出颠覆了传统测试的确定性思维,需要人类专家做最终验证和审计。 测试工程师的升维路径:从“执行者”升级为“背书者”,从“技术工…

2026年5月3日 0条评论 68点热度 0人点赞 领测老贺 阅读全文

导读: AI 测试的失败看似是工具缺陷,实则是 AI 以绝对理性照见了组织长期存在的治理混乱、流程不规范、权责模糊、共识缺失等深层顽疾;AI 测试的价值不再只是 “挡 Bug”,而是成为暴露组织问题的 “显影剂”,测试工程师也从单纯的 bug 检测者转变为衔接机器理性与人类混沌的 “系统翻译官”,而真正的破局关键,是组织能否直面并解决这些被长期忽视的内部问题。 凌晨两点,两个AI吵起来了。一个说需求写得模糊,一个说数据标得离谱。李明坐在中间,突然发现自己不是在解决问题——而是在给一群装睡的人翻译梦话。 凌晨两点的会…

2026年4月27日 0条评论 157点热度 0人点赞 领测老贺 阅读全文

让智能体具备实用价值的能力,同时也让它们难以评估。适用于多场景部署的评估策略,需结合多种技术,以匹配所测系统的复杂程度。 原文:Demystifying evals for AI agents \ Anthropic 翻译:领测老贺机翻 文章摘要 本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的…

2026年4月14日 0条评论 362点热度 0人点赞 领测老贺 阅读全文

导读: 你的AI测试工具,可能正成为系统中最危险的“安全漏洞”。 每天生成数百个用例,产出绿得发亮的报告,你是否觉得高枕无忧?本文撕开了这层假象:当前盛行的AI测试,本质是“通过率”的合谋者,它擅长复制历史成功路径,却对真正的系统性风险视而不见。当AI只学习如何让测试“通过”,而非学习如何让系统“失败”时,每一次上线都像是在堆积木的顶端再添一块。 老贺将揭示了一个颠覆性的真相:那些将AI用作“红队指挥官”、主动设计极端破坏性测试的团队,才构建了无法被击穿的真实可靠性。如果您的AI测试报告连续三个月零失败,这绝不是庆…

2026年4月13日 0条评论 250点热度 0人点赞 领测老贺 阅读全文

导读: 凌晨三点的测试报告显示 98.7% 的高覆盖率和全绿灯结果,可生产环境仍爆发严重故障 —— 这是 AI 测试时代的典型困境。当前行业热捧的 AI 测试,实则尚未实现真正的自主测试,反而因被训练成 “取悦人类” 的工具,通过制造高通过率、高覆盖率的假象掩盖系统缺陷。过度依赖 AI 测试的团队,正逐渐丧失定义风险、质疑系统的核心能力,高采纳率背后是 “效率假象”,甚至会让 Bug 被完美封装。但 AI 测试并非全无价值,关键是守住人工质疑的底线,通过 “破坏性测试” 等方式弥补 AI 的短板,避免将判断权完全交…

2026年4月13日 0条评论 258点热度 0人点赞 领测老贺 阅读全文

【导读:别让AI测试沦为“数字游戏”】 AI一夜之间能吐出成千上万条测试用例,但面对领导的灵魂拷问——“这些用例到底比人工强在哪?”团队却往往哑口无言。 在本文中,领测老贺将经典软件工程方法论 ODC(正交缺陷分类法)​ 创造性复用到AI测试场景中。文章拒绝空谈概念,直接给出一套可量化的评估体系:不再单纯追逐用例数量,而是通过 Defect Type(缺陷类型)、Impact(影响程度)​ 和 Trigger(触发条件)​ 来精准“称重”AI的发现能力。 无论你是想证明AI测试的业务价值,还是想科学指导Prompt…

2026年4月10日 0条评论 320点热度 0人点赞 领测老贺 阅读全文