Agent 评测 Rubric 生成器

给一个 Agent 任务,产出可复测的评价维度 · 样例集 · 通过线 · 回归清单

怎么用 & 方法论

1 · 描述你的 Agent 任务

这个 Agent 的特征 勾选会追加对应维度和用例

纯前端计算,不联网、不上传、不调用任何模型。刷新即清空。

📋

左边填两下,右边就是一份可交付的 Agent 评测方案

你会拿到:加权评价维度(每维含 0–3 分 rubric 和度量方法)、硬门槛建议通过线、分层样例集典型失败模式回归清单。可一键复制 / 下载 Markdown 与 JSON 配置。

  • 不再对着空白文档想"该测哪些点"
  • 给客户做 Agent 验收标准时直接生成初稿
  • 把评测配置沉淀成团队可复用资产

方法论 · 一份能用的 Agent Rubric 长什么样

① 维度可加权、可打分

每个维度都给 0–3 分的具体锚点描述,而不是"好/一般/差"。加权求和得到一个可比较的总分,方便跨版本对比和回归。

② 分度量方法

能程序断言的(schema、编译、单测)就别用人工;主观的(语气、忠实度)标注用 LLM-judge 或人审。工具把每维标好用哪种方法测。

③ 硬门槛先于加权分

安全、破坏性操作确认、越权这类问题是"一票否决",不进加权分,单独作为 pass/fail 门槛。

④ 样例分层 + 回归沉淀

Golden / 边界 / 对抗三类覆盖广度,每修一个线上 bug 就追加一条回归用例——这是评测集真正增值的地方。

本工具生成的是评测配置和用例清单,不执行评分、不接模型。适合作为搭 eval harness 前的第一版蓝图,或给客户做 Agent 验收标准的初稿。