智能体评测

智能体评测用于测试智能体的编排效果，验证它是否达到预期的能力与性能。你导入测试数据集，对智能体进行批量执行，再分析输出结果，得到客观的质量评估依据，从而在编排调试阶段持续优化智能体。

功能特点

进入我的智能体列表页，选择一个智能体，单击操作列下的 ··· > 批量测试，进入评测页面。

或单击操作列下的 Agent 管理，进入智能体详情页，然后单击页面右上角的 批量测试。

备注

只有发布过正式版本的智能体才能进行批量测试。

平台支持 AI 评测模型自动分析测试结果。创建评测任务时选择 AI 评测 调试类型，系统会自动调用评测模型分析智能体的输出并生成分析报告。

单击页面右上角的 AI 评测配置。该配置仅对当前智能体有效，在此智能体下创建的每个 AI 评测 任务都会调用此配置。

AI 评测配置入口
配置 评测模型 和 评测提示词。

评测模型与提示词字段

你可以自行输入提示词，或单击页面左下角的 提示词模板，查看模板内容并单击使用来引用。也可单击 切换英文 或 切换中文 切换模板语种，目前支持中英文。

提示词模板选择

配置完成后，单击确定保存。
每次保存后，系统会默认生成一个配置历史版本。在右侧 历史记录 下单击详情查阅历史版本内容，或单击 恢复此版本 恢复某个历史版本的配置。

配置历史记录列表

历史版本详情

在批量测试任务列表页，单击右上角的 创建任务，创建一个针对当前智能体的评测任务。你可以评测智能体的任意已发布版本。

字段	说明
所在数据区	当前评测智能体所在的数据区。任务数据也保存在该数据区。
Agent 名称	智能体的名称。
选择版本	当前智能体的某个历史发布版本。
测试任务名称	评测任务的名称。
调试类型	智能体执行：智能体执行测试数据并输出结果。AI 评测：智能体执行完成后，AI 评测模型自动分析输出内容并返回结果。
导入数据	从表格文件导入测试数据，一次只能上传一个文件。建议先单击下载测试集模板，按模板格式上传，避免解析失败。

配置完成后，单击 保存并立即执行 运行测试任务。

任务执行完成后，单击详情在线查看执行结果，或单击下载下载结果文件。

如果智能体关联了知识库，可在结果中单击 查看检索 查看知识库检索详情。

字段	说明
输入	你上传的测试用例数据。
期望输出	测试数据输入后预期响应的内容。
实际输出	智能体实际生成的结果。
评测结果	人工自定义标注。可标识通过/失败，并添加描述。
评测说明	调试类型为 AI 评测时，展示模型评估意见；为智能体执行时为空，可人工标注。
其他信息	可根据需要添加备注。
知识库检索	如果智能体关联了知识库，可查看该条数据输入后的检索详情。检索详情不支持文件导出。

平台支持对同一智能体的任意两个任务进行在线对比。在 批量测试 任务列表页单击 结果对比，选择任意两个历史任务，再单击 结果对比 查看详情。

你也可以下载任务执行结果文件，在本地进行更细致的对比。

智能体评测功能目前免费，执行评测任务产生的 Token 消耗按标准费率正常计费。

前往资源消耗页面查看 Token 消耗明细，或选择一个智能体，进入 批量测试 列表，在 Token 消耗 列查看每个任务消耗的 Token。