评测可视化对比

最近更新时间:2024-10-21 14:11:31

我的收藏
使用客观评测、主观评测对大模型进行评测后,可对不同模型进行多个指标横向对比,当前支持文生文类的大模型。

前提条件

已完成客观评测主观评测的模型评测,客观评测的任务状态为“已完成”,主观评测的任务状态为“已完成打分”。

配置可视化对比图表

1. 选择评测任务,支持选择“已完成”的客观评测和“已完成打分”的主观评测,最多选择10个任务。


2. 选完评测任务,会自动出现选中评测任务使用的评测数据集和评测的模型,数据集和模型默认全选,也可勾选去除。如下图:


3. 单击应用,右边即可出现选中评测任务,基于选择模型和数据集的雷达图对比展示,如下图:


说明:
1. 雷达图默认勾选对比模式,右上角可勾选去除。选中表明尺度从绝对值到相对值进行缩放,更方便模型进行对比展示。
2. 可视化展示,可点击右侧模型名称,去除该模型在雷达图中的数据展示,再次点击可恢复。鼠标 hover 在雷达图各点上,会展示该模型在该数据集上的评测结果。
3. 可视化数据,行为“模型名称”,列为“数据集”,展示各模型在该数据集上的评测结果,页面展示为6位小数,也可下载全部数据集,下载表格里为原始数据16位小数。
4. 如需重新选择评测任务、对比数据集、对比模型,选择好后,单击应用,右侧图表会根据最新选择更新,否则每次进入该页面均按照上次提交“应用”的配置展示。