导读: 在AI以十倍速生成代码的时代,传统测试工程师正面临前所未有的职业焦虑。当AI代码的行为逻辑无法被完全预测,曾经引以为傲的测试用例模板和基于静态需求的测试策略瞬间失灵。问题的本质已从“已知的未知”转变为“未知的未知”,测试工程师仿佛拿着精确地图,却站在了一片实时生长的森林面前,连“问题可能在哪”都无法预见。 AI时代的质量保障核心战场已从“测试执行层”转移至“意图定义层”。真正的瓶颈不再是“如何测试”,而是“定义什么是值得验证的行为”。老贺认为,测试工程师的终点不是成为更快、更强的“找Bug的人”,而应进化为…

2026年5月22日 0条评论 236点热度 0人点赞 领测老贺 阅读全文

📖导读 测试思维能被AI复制吗?答案并非简单的“是”或“否”,而是一个刺痛所有测试工程师的结构性困境。 本文从一个测试总监的焦虑切入,直指AI时代测试工程师的生存危机核心。老贺认为,危机的根源并非AI技术的强大,而是两个被普遍忽视的悖论。 首先,是组织认知的短视。 究其原因,是组织资源分配偏好于“可见产出”,如自动化测试脚本数量和执行时长。而更富价值的、基于业务直觉和系统经验的“前提性质疑”,虽然能规避巨大风险,却因为无法被量化度量,在组织的决策算法中权重归零。这导致资源持续流向“执行层”,而非“思维层”。 其次,…

2026年5月14日 0条评论 267点热度 0人点赞 领测老贺 阅读全文

📖导读 当前测试工程师群体正经历着前所未有的职业焦虑。然而,危机的根源并非AI技术本身,而是两个被长期忽视的结构性问题。 第一,现代企业的效率考核体系天然排斥"不可见劳动"。组织愿意为写代码和跑测试用例付费,却极难为"停下来思考为什么要测这个"的沉默时间买单。测试工程师最核心的价值——对潜在风险的深度质疑、对系统边界的反复推演——恰恰发生在那些没有直接产出的"思维间隙"中。这种价值无法被量化,因此在成本压力下首当其冲。 第二,人类质疑者自身的可靠性同样被高估。认知科学表明,人类存在确认偏见、过度自信等系统性偏差,这…

2026年5月14日 0条评论 223点热度 0人点赞 领测老贺 阅读全文

📖导读 许多测试人员误将“使用AI工具”等同于“拥有AI时代的核心能力”,这是致命的认知偏差。老贺认为,AI不会替代测试工程师,但会彻底暴露那些“以执行代替思考”的“伪测试者”。真正的职业危机并非来自AI,而是来自自身对“确定性执行”的路径依赖。 质量问题的瓶颈从来不在工具和覆盖率,而在于人的“想象力边界”。85%的重大线上事故源于“没人想过要测试这个组合”,这正是测试思维的价值所在——提出无人想到的问题。当下,测试左移和右移并非此消彼长,而是并行的质量补充手段。未来,执行型岗位将快速萎缩,取而代之的是具备“系统性…

2026年5月11日 0条评论 208点热度 0人点赞 领测老贺 阅读全文

导读 曾被奉为测试工程师核心竞争力、被视为神秘“直觉”或“天赋”的“测试思维”,实际上是一个从未被清晰定义的空洞概念。当AI技术能够以毫秒级速度穷举传统测试依赖的“边界值直觉”时,这一模糊概念的脆弱性暴露无遗。测试工程师的“护城河”瞬间瓦解,引发了前所未有的身份认同危机。 领测老贺指出,问题的核心并非AI是否具有“思维”,而是因为“测试思维”被过度神秘化,成为掩盖组织能力建设不足(如缺失质量标准、可复用资产、知识库)的借口。真正的挑战来自AI系统本身的“非确定性”行为,它彻底颠覆了基于确定性输入-输出模型的传统测试…

2026年5月8日 0条评论 212点热度 0人点赞 领测老贺 阅读全文

📖导读 AI越强大,测试工程师越不可或缺——因为AI可以干活,但无法承担责任。理由如下: 责任不可让渡:所有AI替代论忽略的根本问题是——谁为AI的失误负责?法律上,签字放行的人才承担法律责任,AI只是工具。 测试的本质不是找Bug,而是质量背书:测试工程师的核心价值在于“专业判断+承担责任”,这包含大量隐性知识和业务直觉,无法被训练数据替代。 AI带来新风险:非确定性与幻觉:大模型的概率性输出颠覆了传统测试的确定性思维,需要人类专家做最终验证和审计。 测试工程师的升维路径:从“执行者”升级为“背书者”,从“技术工…

2026年5月3日 0条评论 224点热度 0人点赞 领测老贺 阅读全文

导读: AI 测试的失败看似是工具缺陷,实则是 AI 以绝对理性照见了组织长期存在的治理混乱、流程不规范、权责模糊、共识缺失等深层顽疾;AI 测试的价值不再只是 “挡 Bug”,而是成为暴露组织问题的 “显影剂”,测试工程师也从单纯的 bug 检测者转变为衔接机器理性与人类混沌的 “系统翻译官”,而真正的破局关键,是组织能否直面并解决这些被长期忽视的内部问题。 凌晨两点,两个AI吵起来了。一个说需求写得模糊,一个说数据标得离谱。李明坐在中间,突然发现自己不是在解决问题——而是在给一群装睡的人翻译梦话。 凌晨两点的会…

2026年4月27日 0条评论 331点热度 0人点赞 领测老贺 阅读全文

让智能体具备实用价值的能力,同时也让它们难以评估。适用于多场景部署的评估策略,需结合多种技术,以匹配所测系统的复杂程度。 原文:Demystifying evals for AI agents \ Anthropic 翻译:领测老贺机翻 文章摘要 本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的…

2026年4月14日 0条评论 609点热度 0人点赞 领测老贺 阅读全文
123456