Agent 评测 Rubric 生成器

1 · 描述你的 Agent 任务

任务类型 决定基础评价维度 一句话任务描述 只用于填充清单标题，可留空

这个 Agent 的特征 勾选会追加对应维度和用例

风险等级上线成熟度

纯前端计算，不联网、不上传、不调用任何模型。刷新即清空。

📋

你会拿到：加权评价维度（每维含 0–3 分 rubric 和度量方法）、硬门槛、建议通过线、分层样例集、典型失败模式与回归清单。可一键复制 / 下载 Markdown 与 JSON 配置。

方法论 · 一份能用的 Agent Rubric 长什么样

每个维度都给 0–3 分的具体锚点描述，而不是"好/一般/差"。加权求和得到一个可比较的总分，方便跨版本对比和回归。

能程序断言的（schema、编译、单测）就别用人工；主观的（语气、忠实度）标注用 LLM-judge 或人审。工具把每维标好用哪种方法测。

安全、破坏性操作确认、越权这类问题是"一票否决"，不进加权分，单独作为 pass/fail 门槛。

Golden / 边界 / 对抗三类覆盖广度，每修一个线上 bug 就追加一条回归用例——这是评测集真正增值的地方。

本工具生成的是评测配置和用例清单，不执行评分、不接模型。适合作为搭 eval harness 前的第一版蓝图，或给客户做 Agent 验收标准的初稿。