跳到主要内容

智能体评测

智能体评测用于测试智能体的编排效果,验证它是否达到预期的能力与性能。你导入测试数据集,对智能体进行批量执行,再分析输出结果,得到客观的质量评估依据,从而在编排调试阶段持续优化智能体。

功能特点

  • 批量数据测试:导入场景化测试数据集,模拟用户对话输入,批量执行并收集输出,全面核定智能体回复的质量和效果。
  • AI 模型辅助分析:由 AI 评测模型自动分析结果,提供质量判定和效果评分,提升分析效率。
  • 多维度对比分析:支持测试结果在线比对和标注、跨版本结果比对,以及知识库检索详情追溯。

批量测试

进入 我的智能体 列表页,选择一个智能体,单击 操作 列下的 ··· > 批量测试,进入评测页面。

我的智能体列表中的批量测试入口
我的智能体列表中的批量测试入口

或单击 操作 列下的 Agent 管理,进入智能体详情页,然后单击页面右上角的 批量测试

智能体详情页的批量测试按钮
智能体详情页的批量测试按钮

备注

只有发布过正式版本的智能体才能进行批量测试。

AI 评测配置

平台支持 AI 评测模型自动分析测试结果。创建评测任务 时选择 AI 评测 调试类型,系统会自动调用评测模型分析智能体的输出并生成分析报告。

  1. 单击页面右上角的 AI 评测配置。该配置仅对当前智能体有效,在此智能体下创建的每个 AI 评测 任务都会调用此配置。

    AI 评测配置入口
    AI 评测配置入口

  2. 配置 评测模型评测提示词

    评测模型与提示词字段
    评测模型与提示词字段

    你可以自行输入提示词,或单击页面左下角的 提示词模板,查看模板内容并单击 使用 来引用。也可单击 切换英文切换中文 切换模板语种,目前支持中英文。

    提示词模板选择
    提示词模板选择

    配置完成后,单击 确定 保存。

  3. 每次保存后,系统会默认生成一个配置历史版本。在右侧 历史记录 下单击 详情 查阅历史版本内容,或单击 恢复此版本 恢复某个历史版本的配置。

    配置历史记录列表
    配置历史记录列表

    历史版本详情
    历史版本详情

创建评测任务

在批量测试任务列表页,单击右上角的 创建任务,创建一个针对当前智能体的评测任务。你可以评测智能体的任意已发布版本。

创建任务入口
创建任务入口

创建任务表单
创建任务表单

字段说明
所在数据区当前评测智能体所在的数据区。任务数据也保存在该数据区。
Agent 名称智能体的名称。
选择版本当前智能体的某个历史发布版本。
测试任务名称评测任务的名称。
调试类型智能体执行:智能体执行测试数据并输出结果。AI 评测:智能体执行完成后,AI 评测模型自动分析输出内容并返回结果。
导入数据从表格文件导入测试数据,一次只能上传一个文件。建议先单击 下载测试集模板,按模板格式上传,避免解析失败。

配置完成后,单击 保存并立即执行 运行测试任务。

评测结果

任务执行完成后,单击 详情 在线查看执行结果,或单击 下载 下载结果文件。

评测结果视图
评测结果视图

如果智能体关联了知识库,可在结果中单击 查看检索 查看知识库检索详情。

知识库检索详情
知识库检索详情

字段说明
输入你上传的测试用例数据。
期望输出测试数据输入后预期响应的内容。
实际输出智能体实际生成的结果。
评测结果人工自定义标注。可标识通过/失败,并添加描述。
评测说明调试类型为 AI 评测 时,展示模型评估意见;为 智能体执行 时为空,可人工标注。
其他信息可根据需要添加备注。
知识库检索如果智能体关联了知识库,可查看该条数据输入后的检索详情。检索详情不支持文件导出。

结果对比

平台支持对同一智能体的任意两个任务进行在线对比。在 批量测试 任务列表页单击 结果对比,选择任意两个历史任务,再单击 结果对比 查看详情。

结果对比选择
结果对比选择

结果对比详情
结果对比详情

你也可以下载任务执行结果文件,在本地进行更细致的对比。

费用说明

智能体评测功能目前免费,执行评测任务产生的 Token 消耗按标准费率正常计费。

前往 资源消耗 页面查看 Token 消耗明细,或选择一个智能体,进入 批量测试 列表,在 Token 消耗 列查看每个任务消耗的 Token。

Token 消耗视图
Token 消耗视图

相关文档