让智能体具备实用价值的能力,同时也让它们难以评估。适用于多场景部署的评估策略,需结合多种技术,以匹配所测系统的复杂程度。 原文:Demystifying evals for AI agents \ Anthropic 翻译:领测老贺机翻 文章摘要 本文由 Anthropic 工程团队发布,系统拆解了 AI Agent(智能体)评估的核心难点与实践方法。文章解释了为何评估对智能体研发至关重要,介绍了代码型、模型型、人工三类评分器,以及针对编码、对话、研究、计算机操作等不同智能体的评估方案。同时给出了从零搭建评估体系的…

2026年4月14日 0条评论 256点热度 0人点赞 领测老贺 阅读全文

原文链接:Humans and Agents in Software Engineering Loops 是martinfowler近期提出的一个清晰的框架,将 AI 时代的软件开发分为三种模式:人在回路外、人在回路内、人在回路上。 作者认为最理想的位置是第三种:开发者的核心工作从编写代码转变为构建和维护 Agent 运行所依赖的"harness",即规格、质量检查和工作流指引的集合。 文章还进一步描述了"agentic flywheel"的演化路径,让 Agent 不仅执行任务,还能持续改进驱动自身的 harne…

2026年3月21日 0条评论 342点热度 0人点赞 领测老贺 阅读全文

核心概览:本文聚焦2026年前软件工程领域的5个关键议题,每个议题均呈现两种对立发展场景,剖析AI普及、市场环境变化对行业的深层影响。内容涵盖初级开发者职业困境、从业者技能演变、开发者角色重塑、专家与通才的路径抉择及教育模式变革,最终给出不同群体的应对策略,核心主线为“以变化为常量,通过技能更新与能力多元化立足行业”。 软件行业正处于特殊的转折期。AI编程已从“超级自动补全工具”进化为可自主执行开发任务的智能体;曾经驱动行业大规模招聘的经济繁荣,如今已让位于效率至上的导向——企业更看重盈利能力而非增长速度,更青睐有…

2026年1月15日 0条评论 1827点热度 0人点赞 领测老贺 阅读全文

在公众号《人月聊IT》看到《AI重塑软件工程》系列文章,感觉不错,所以在此集合一下这些文章的链接,方便日后查看。 AI重塑软件工程01-需求工程和软件开发过程的大阶段拆 AI重塑软件工程02-从DeepWiki源代码知识库到逆向建模工程 AI重塑软件工程03-基于ClaudeCode开发完整商业应用软件项目实践指南 AI重塑软件工程04-Spec Coding-基于Kiro AI IDE的周报系统开发01 AI重塑软件工程04-Spec Coding-基于Kiro AI IDE的周报系统开发02 AI重塑软件工程0…

2025年12月28日 0条评论 660点热度 0人点赞 领测老贺 阅读全文

原文:Daniel Knott 翻译:领测老贺 随着人工智能系统愈发先进并融入到了实际应用中,为确保其质量、可靠性与性能,将变得前所未有的重要。在本文中,我想分享关于 “测试左移” 如何改进通过人工智能进行开发的思考 —— 特别是通过对人工智能的提示词进行测试。 无论你是在处理大型语言模型(LLMs)、开发 AI 驱动的应用程序,还是为生成式工具设计提示词,在开发生命周期的早期阶段开展测试都是一项高效策略,并且能取得显著的收益。 什么是测试左移? 测试左移(Shift Left Testing)是一种软件开发实践,…

2025年10月17日 0条评论 1292点热度 0人点赞 领测老贺 阅读全文

作者:Thomas E. OConnor 敏捷团队由产品负责人、Scrum 主管、软件开发人员和其他通过创造性交付有价值的产品来协作解决复杂的问题的人员组成。在团队用来开发、交付和维护复杂产品的敏捷方法中,Scrum 越来越受欢迎。然而,直到最近,我们才通过大规模 Scrum(LeSS)等扩展型敏捷流程框架有效解决了企业中的 Scrum 扩展问题。 LeSS 框架简介 LeSS 是一个框架,用于将 Scrum 扩展到使用单个产品协同工作的多个团队。该框架从一个 Scrum 团队的基础开始,正如 Ken Schwab…

2025年4月26日 0条评论 2515点热度 0人点赞 领测老贺 阅读全文

今天在使用Python的时候,使用Anaconda创建了一个虚拟环境,在Jupyter Notebook中也激活了这个虚拟环境,而且在这个环境下也安装好了相应的包 但怎么实验,也无法在Jupyter Notebook中成功import新包,报错显示No module xxx found。 实验了各种方法均不成功,后按照下文的方式重新配置一个新的虚拟环境后,再次安装新包成功,特此记录一下方法。 文章的链接和具体内容如下: 在Windows下,为Jupyter创建新的kernel 1.创建环境 打开Anaconda P…

2024年1月10日 0条评论 5464点热度 0人点赞 领测老贺 阅读全文

​最近在GitHub上发现一个项目,项目描述了作为QA工程师,进行软件测试技能提升时的,建议的软件测试学习顺序图​。 虽然2021年起就不再更新了,但是居然有1.5K的​星。 整个项目有两个部分​:     ​1.QA和软件测试学习顺序图     ​2.一份测试计划模版 项目的介绍文字如下​:    ​    在任何产品生命周期中,测试都是一个至关重要的阶段,无论是食品、汽车还是软件生产线。产品的结果应该符合我们的期望,并满足我们创造该产品的需求。 对于任何质量保证工程师来说,拥有坚实的,理解软件组件如何工作以及如…

2023年12月3日 1条评论 25704点热度 0人点赞 领测老贺 阅读全文
12