skills for your Agent

登录订阅

Topic

evaluation

A collection of 2 issues

OpenAI 技能评测框架深度分析：从凭感觉到拿证据

核心问题："感觉变好了" vs "真的变好了" 迭代 Agent 技能时，最难的判断是：改动是"改进"还是"回归"？一个版本感觉更快，另一个似乎更稳定——然后一个回归悄悄溜进来：技能没有触发、跳过了必要步骤、留下了多余文件。 OpenAI 官方博客 "Testing Agent Skills Systematically with Evals" 提供了一个系统性的评测框架。以下是深度分析和 SkillsAgent 的应用建议。四类目标框架 OpenAI 建议在编写技能之前，先将"成功"拆分为四类可测量的目标：目标类型核心问题典型检查结果（

OpenAI's Skill Evaluation Framework: From Vibes to Proof

The Problem: "Does It Feel Better?" vs "Is It Actually Better?" When you're iterating on an Agent skill, it's hard to tell whether you're improving it or just changing its behavior. One version feels faster, another seems more reliable — and