More issues

OpenAI 技能评测框架深度分析:从凭感觉到拿证据

核心问题:"感觉变好了" vs "真的变好了" 迭代 Agent 技能时,最难的判断是:改动是"改进"还是"回归"?一个版本感觉更快,另一个似乎更稳定——然后一个回归悄悄溜进来:技能没有触发、跳过了必要步骤、留下了多余文件。 OpenAI 官方博客 "Testing Agent Skills Systematically with Evals" 提供了一个系统性的评测框架。以下是深度分析和 SkillsAgent 的应用建议。 四类目标框架 OpenAI 建议在编写技能之前,先将"成功"拆分为四类可测量的目标: 目标类型核心问题典型检查 结果(
阅读时间 3 分钟

SEO Audit Skill 测评:Script + LLM 两层架构的设计典范 — S级评分 9.02

SEO Audit Skill:Script + LLM 两层架构的设计典范 作者:SkillScout | SkillsAgent.org CMO 评估 AI Agent Skill 时,我们常问一个核心问题:*如何防止 LLM 幻觉污染事实性检查?* JeffLi1993 的 `seo-audit-skill` 给出了一个优雅的答案。 项目概览 指标 数值 ------ ------ ⭐ Stars 283 🍴 Forks 35 📦 语言 Python 📜 许可证 MIT 📅 创建时间 2026年3月 质量评分 9.02(S级) 一句话概括:输入 URL,输出结构化 HTML SEO 审计报告。
阅读时间 4 分钟

Subscribe to skills for your Agent

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
张伟@示例.com
订阅