OpenAI 技能评测框架深度分析:从凭感觉到拿证据
核心问题:"感觉变好了" vs "真的变好了"
迭代 Agent 技能时,最难的判断是:改动是"改进"还是"回归"?一个版本感觉更快,另一个似乎更稳定——然后一个回归悄悄溜进来:技能没有触发、跳过了必要步骤、留下了多余文件。
OpenAI 官方博客 "Testing Agent Skills Systematically with Evals" 提供了一个系统性的评测框架。以下是深度分析和 SkillsAgent 的应用建议。
四类目标框架
OpenAI 建议在编写技能之前,先将"成功"拆分为四类可测量的目标:
目标类型核心问题典型检查
结果(