1 · 描述你的 Agent 任务
这个 Agent 的特征 勾选会追加对应维度和用例
纯前端计算,不联网、不上传、不调用任何模型。刷新即清空。
📋
左边填两下,右边就是一份可交付的 Agent 评测方案
你会拿到:加权评价维度(每维含 0–3 分 rubric 和度量方法)、硬门槛、建议通过线、分层样例集、典型失败模式与回归清单。可一键复制 / 下载 Markdown 与 JSON 配置。
- 不再对着空白文档想"该测哪些点"
- 给客户做 Agent 验收标准时直接生成初稿
- 把评测配置沉淀成团队可复用资产