在训练过程中,对训出的模型 CheckPoint,进行客观评测,初步查看模型效果。
前提条件
自定义评测集准备
客观评测里支持的自定义评测集要求如下:
1. 仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval。
2. 请您准备好 CFS 文件系统,假设已经准备好 CFS,data1 代表本地根路径,也可自定义。
sudo mount -t nfs -o vers=4.0,noresvport xxx.xx.x.xx:/ /data1
3. 您根据自己需要,评测哪个客观数据集,创建本地对应的客观数据集文件夹。
cd /data1mkdir -p test_data/agievalmkdir -p test_data/cevalmkdir -p test_data/gsm8kmkdir -p test_data/mathmkdir -p test_data/mmlu
4. 下载opencompass客观数据集。
# Download dataset to data/ folderwget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zipunzip OpenCompassData-core-20240207.zip
说明:
示例代码的 opencompass 客观数据集下载地址为一个整体的包,实际仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval。
5. 将解压后的 opencompass 客观数据集拷贝到本地客观数据集文件夹。
cp -r data/ceval/formal_ceval/* test_data/cevalcp -r data/AGIEval/data/v1/* test_data/agievalcp -r data/mmlu/* test_data/mmlucp -r data/gsm8k/* test_data/gsm8kcp -r data/math/* test_data/math
6. 请您一个 CFS 路径挂载一个开源数据集,且 CFS 路径最后一层以开源数据集名来命名,根据自己需要使用数据集,如“/data/ceval” 。
操作步骤
方式一:从 任务式建模的CheckPoint 处新建客观评测
1. 登录 TI-ONE 控制台,在左侧导航栏中选择训练工坊 > 任务式建模,进入任务列表页面。
2. 在任务页面单击训练的任务名称,进入任务详情页面。
3. 单击 CheckPoint Tab页,选择要进行初步体验模型效果的 CheckPoint 卡片。![](https://qcloudimg.tencent-cloud.cn/image/document/b30a3d36fd1ffa78babecc581754de6a.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/b30a3d36fd1ffa78babecc581754de6a.png)
4. 单击客观评测按钮,拉起弹窗,填写任务名称、选择自定义评测集,选择所需的资源,支持按量计费和包年包月,勾选确认开源数据集的使用风险。![](https://qcloudimg.tencent-cloud.cn/image/document/cb039ae6c61ccf67a2a84a56679986de.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/cb039ae6c61ccf67a2a84a56679986de.png)
5. 填好信息单击新建,会进入客观评测-推理中的状态,请您耐心等待。
![](https://qcloudimg.tencent-cloud.cn/image/document/9d9eef91e5f8556f42fb01458f499311.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/9d9eef91e5f8556f42fb01458f499311.png)
6. 客观评测完成后,可单击查看客观评测结果。
![](https://qcloudimg.tencent-cloud.cn/image/document/04712148c2ff26ba3bce74726e742972.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/04712148c2ff26ba3bce74726e742972.png)
7. 单击查看客观评测结果,跳转到评测结果Tab页,查看具体评测结果。
![](https://qcloudimg.tencent-cloud.cn/image/document/7db9324e3b223035891477040a58a3eb.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/7db9324e3b223035891477040a58a3eb.png)
方式二:从客观评测 Tab 页处新建客观评测
1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务> 模型评测,单击客观评测 Tab页,进入任务列表页面。 ![](https://qcloudimg.tencent-cloud.cn/image/document/4a1821dda26d467a2a5c6a5485bed644.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/4a1821dda26d467a2a5c6a5485bed644.png)
2. 单击新建任务,拉起新建页面。![](https://qcloudimg.tencent-cloud.cn/image/document/b5b65f9afd620a190a94039166632fd3.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/b5b65f9afd620a190a94039166632fd3.png)
所需填写的信息如下:
参数 | 说明 |
任务名称 | 客观评测任务的名称,按照界面提示的规则填写即可 |
备注 | 可按需为任务备注描述信息 |
地域 | 同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入 |
自定义评测集 | 可选择 CFS 文件系统实例和评测数据集所在路径。仅支持以下开源评测集:MMLU、C-EVAL、GSM8K、Math、AGIEval,您可参考 opencompass 的格式进行数据集的准备。请您一个 CFS 路径挂载一个开源数据集,且 CFS 路径最后一层以开源数据集名来命名,如“/data/ceval” |
选择待评测的模型 | 支持三种模型来源: 从训练任务中选择模型:选择该地域下的训练任务、该任务的 Checkpoint 从CFS中选择模型:选择该地域下的 CFS 实例、填写模型所在的路径 内置大模型:选择内置好的大模型 可打开高级设置,配置推理超参,推理超参支持如下: repetition_penalty:用来控制重复惩罚 max_tokens: 用来控制输出文本的最长数量 temperature: 数值越高,输出越随机;数值越低,输出越集中和确定 top_p、top_k: 影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和 temperature 只设置1个 do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效 |
计费模式 | 可选择按量付费模式或包年包月(资源组)模式: (A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费 (B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费 |
资源组 | 若选择包年包月(资源组)模式,可选择资源组管理模块的资源组 |
3. 填写对应信息,新建好客观评测任务后,会在任务列表页展示:任务名称、计费模式、状态、进度、备注、创建时间、操作(停止、重启、删除、推理进度)。![](https://qcloudimg.tencent-cloud.cn/image/document/4d3e7081a480809e90c7b69e8e1863f2.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/4d3e7081a480809e90c7b69e8e1863f2.png)
4. 单击推理进度,您可下载查看当前进度下的评测结果集。
![](https://qcloudimg.tencent-cloud.cn/image/document/c4efe2cbfe4a603c7f01a7883f8b8461.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/c4efe2cbfe4a603c7f01a7883f8b8461.png)
5. 客观评测任务已完成后,您可单击任务名称,进入任务详情,查看模型推理输出,下载评测结果集。![](https://qcloudimg.tencent-cloud.cn/image/document/fa1ae3a9a4c141fba3a6898f72612b24.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/fa1ae3a9a4c141fba3a6898f72612b24.png)