客观评测

最近更新时间:2024-06-18 09:52:31

我的收藏
在训练过程中,对训出的模型 CheckPoint,进行客观评测,初步查看模型效果。

前提条件

已完成任务式建模的任务创建,已完成 CheckPoint 的输出。

自定义评测集准备

客观评测里支持的自定义评测集要求如下:
1. 仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval。
2. 请您准备好 CFS 文件系统,假设已经准备好 CFS,data1 代表本地根路径,也可自定义。
sudo mount -t nfs -o vers=4.0,noresvport xxx.xx.x.xx:/ /data1
3. 您根据自己需要,评测哪个客观数据集,创建本地对应的客观数据集文件夹。
cd /data1
mkdir -p test_data/agieval
mkdir -p test_data/ceval
mkdir -p test_data/gsm8k
mkdir -p test_data/math
mkdir -p test_data/mmlu
4. 下载opencompass客观数据集。
# Download dataset to data/ folder
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
说明:
示例代码的 opencompass 客观数据集下载地址为一个整体的包,实际仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval。
5. 将解压后的 opencompass 客观数据集拷贝到本地客观数据集文件夹。
cp -r data/ceval/formal_ceval/* test_data/ceval
cp -r data/AGIEval/data/v1/* test_data/agieval
cp -r data/mmlu/* test_data/mmlu
cp -r data/gsm8k/* test_data/gsm8k
cp -r data/math/* test_data/math
6. 请您一个 CFS 路径挂载一个开源数据集,且 CFS 路径最后一层以开源数据集名来命名,根据自己需要使用数据集,如“/data/ceval” 。

操作步骤

方式一:从 任务式建模的CheckPoint 处新建客观评测

1. 登录 TI-ONE 控制台,在左侧导航栏中选择训练工坊 > 任务式建模,进入任务列表页面。
2. 在任务页面单击训练的任务名称,进入任务详情页面。
3. 单击 CheckPoint Tab页,选择要进行初步体验模型效果的 CheckPoint 卡片。


4. 单击客观评测按钮,拉起弹窗,填写任务名称、选择自定义评测集,选择所需的资源,支持按量计费和包年包月,勾选确认开源数据集的使用风险。


5. 填好信息单击新建,会进入客观评测-推理中的状态,请您耐心等待。



6. 客观评测完成后,可单击查看客观评测结果



7. 单击查看客观评测结果,跳转到评测结果Tab页,查看具体评测结果。




方式二:从客观评测 Tab 页处新建客观评测

1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务> 模型评测,单击客观评测 Tab页,进入任务列表页面。


2. 单击新建任务,拉起新建页面。


所需填写的信息如下:
参数
说明
任务名称
客观评测任务的名称,按照界面提示的规则填写即可
备注
可按需为任务备注描述信息
地域
同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入
自定义评测集
可选择 CFS 文件系统实例和评测数据集所在路径。仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval,您可参考 opencompass 的格式进行数据集的准备。请您一个 CFS 路径挂载一个开源数据集,且 CFS 路径最后一层以开源数据集名来命名,如“/data/ceval”
选择待评测的模型
支持三种模型来源:
从训练任务中选择模型:选择该地域下的训练任务、该任务的 Checkpoint
从CFS中选择模型:选择该地域下的 CFS 实例、填写模型所在的路径
内置大模型:选择内置好的大模型
可打开高级设置,配置推理超参,推理超参支持如下:
repetition_penalty:用来控制重复惩罚
max_tokens: 用来控制输出文本的最长数量
temperature: 数值越高,输出越随机;数值越低,输出越集中和确定
top_p、top_k: 影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和 temperature 只设置1个
do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效
计费模式
可选择按量付费模式或包年包月(资源组)模式:
(A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费
(B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费
资源组
若选择包年包月(资源组)模式,可选择资源组管理模块的资源组
3. 填写对应信息,新建好客观评测任务后,会在任务列表页展示:任务名称、计费模式、状态、进度、备注、创建时间、操作(停止、重启、删除、推理进度)。


4. 单击推理进度,您可下载查看当前进度下的评测结果集。



5. 客观评测任务已完成后,您可单击任务名称,进入任务详情,查看模型推理输出,下载评测结果集。