腾讯云大模型训推平台TI-ONE 性能评测

概述
性能评测提供向导式的评测任务提交方式进行评测任务构建，可基于自定义评测集快速进行模型服务的压测以及对吞吐量、延迟等核心指标进行测试。其功能的详细描述为：
通过使用自定义的评测集、自定义压测参数启动评测任务，支持两种压测模式，分别为“固定并发压测”模式和“容量探测”的压测模式。
支持多配置任务组两种任务创建方式，便于同一模型在不同上下文长度、不同压测模式下的评测。
前置条件
创建性能评测任务时，需要用户准备好评测集（上传至自定义评测集）、待评测模型/服务。
准备评测集
内置评测集
具体内置的评测集可参见 内置的开源评测集介绍。
自定义上传评测集
和直接使用平台内置的开源评测集不同的是，准备好评测集后，创建任务时需要填写评测集在 CFS/GooseFSx/数据源中的路径。
以 CFS 为例，为方便任务的创建，在准备评测集阶段，需要在开发机中挂载您的 CFS 文件系统，以获得评测时所需填写的路径。CFS 文件系统使用如下：
1、请您准备好 CFS 文件系统。您可以挂载您的 CFS 文件系统并启动开发机。
2、请根据 模型评测的格式要求 准备评测集。
待评测模型/服务
从在线服务中选择
评测时支持从 TI-ONE 在线服务中选择，用户需要提前在 TI-ONE 在线服务模块把待评测模型启动成服务，部署指南请参见 在线服务部署。
填写服务地址
评测时支持用户输入服务地址，用户需要提前准备好服务并记录服务地址以便填入。
操作步骤
1. 登录 TI-ONE 控制台，在左侧导航栏中选择 模型服务 > 模型评测，单击性能评测 Tab 页，进入任务列表页面。
﻿
﻿
﻿
2. 单击新建任务，拉起新建页面。
所需填写的信息如下：
参数
说明
任务名称
性能评测任务的名称，按照界面提示的规则填写即可
备注
可按需为任务备注描述信息
地域
同账号下的服务按地域进行隔离，地域字段取值根据您在服务列表页面所选择的地域自动带入
评测模式
直接评测：可设置不同固定并发和容量探测评测模式下的参数，选择不同的卡型进行测试
从评测模板创建：可选择不同的评测模板，由于评测模板中已经配置好了参数，则选择不同的卡型进行测试即可
评测配置
若上一步选择“直接评测”，可以添加多个配置；若上一步选择“从评测模板创建”，则选择评测模板和配置后评测集不可更改，只能修改压测模式和参数。评测配置介绍如下：
配置名称：对当前配置进行命名
评测集
从配置管理评测集中选择：需提前准备好数据存到系统的“配置管理”中，然后在下拉框选用
随机生成：系统会自动生成一份符合规范的测试数据
分词路径：模型 Tokenizer 配置文件的存储位置（支持 HuggingFace 路径）。系统将基于此路径加载分词器，用于精确计算随机数据 Token 化后的输入长度
压测模式
多并发模式：逐步加并发测试，每个并发测试跑15-20分钟并记录性能指标，当成功率 < 阈值时停止加压，每项性能指标取多次记录中最大的值
容量探测模式：逐步加压测试，观测 tpm 值至预期负载（60%/80%/100%/120%）后，在预期负载下运行30-60分钟并观测性能指标
通用参数
输入长度：请求 Prompt 的 Token 长度，用于模拟不同上下文窗口下的负载特征
输出长度：限制模型生成的最大 Token 数，直接影响推理计算量与吞吐量消耗
发送次序：定义请求发送至被测服务的时序策略，决定压力的释放方式
排队发送：并发情况下，每个 worker 接收模型服务完整的 Token（即该条请求结束）后，方可发起下一条请求
一次性发送：每个 worker 在接收到当前请求的首个 Token​ 后即触发下一条请求发送。该模式可用于模拟 PD 分离（Prefill-Decode Separation）​ 架构下 Prefill 节点​的性能
容量探测模式相关参数
负载：期望达到的目标压力值
负载百分比：定义当前探测阶段的压力水位
达到负载后压测时长：压力达到目标值后，维持该负载的稳态运行时间
起始并发数：压测启动时的初始并发连接数
递增步长：每次加压时并发数的抬升幅度
梯度时长：每一个压力梯度（并发等级）的持续运行时长
多并发压测模式相关参数
并发及请求数：压测过程中的并发及请求数，格式为并发数:每并发请求数，多条配置请换行分隔
预热配置：用于填充缓存、建立连接池，避免冷启动数据污染正式结果，可选择开启或关闭
预热并发：预热阶段使用的并发数
预热时长：预热阶段的持续运行时间
预热评测集：预热阶段使用的轻量级数据集
终止条件
最大并发数：压测允许达到的并发上限。无论加压策略如何，一旦触及该值即停止施压
总体测试时长：整个压测任务的最长运行时间
最大失败率：允许的请求失败比例阈值，当实时错误率超过该值时判定服务过载并终止任务
最低生成速度：Token 生成的最小速率，若生成速度低于此值将触发终止
评测指标：选择需要评测的指标，支持多选，勾选一级指标将全选该指标下的所有二级指标
待评测的模型
如有多个待评测模型，可以添加多个模型进行多模型对比
模型/服务来源：选择待评测的模型。仅支持填写第三方服务地址进行评测
﻿
待评测模型/服务：填写模型服务相关信息
若上一步选择“从在线服务选择”，选择服务名称/版本后，其他信息将自动载入
﻿
若上一步选择“填写服务地址”，需自行填写服务地址、调用接口及鉴权信息
﻿
模型名称：展示在评测报告中的模型名称
对比基线：可选择要对比的基线
操作
支持设置 System Prompt
支持进行参数设置，包括推理超参和性能参数设置
配置推理超参，推理超参支持如下：
repetition_penalty：用来控制重复惩罚
max_tokens：用来控制输出文本的最长数量
temperature：数值越高，输出越随机；数值越低，输出越集中和确定
top_p、top_k：影响输出文本的多样性，数值越高，生成文本的多样性越强。建议该参数和 temperature 只设置1个
do_sample：确定模型推理时的采样方式，取值 true 时为 sample 方式；取值为 false 时为 greedy search 方式，此时，top_p、top_k、temperature、repetition_penalty 不生效
配置性能参数，平台配置默认参数 MAX_CONCURRENCY 和 MAX_RETRY_PER_QUERY
MAX_CONCURRENCY 指评测过程中同时向模型发起的请求数上限；设置过低可能导致模型吞吐量下降导致评测耗时较长，设置过高可能导致显存溢出或请求超时（平台默认24）。用户可根据任务需求合理调整该值
MAX_RETRY_PER_QUERY 指每条数据在请求推理服务出现异常时（如请求超时或网络故障）的最大重试次数。该值为0则不进行重试（平台默认0）。用户可根据任务需求合理调整该值
机器来源及资源申请
可选择从 CVM 机器中选择和从 TIONE 平台购买
若选择从 TIONE 平台购买，则需要选择算力规格和节点数量
若选择从 CVM 机器中选择，则需要先创建资源组并购买节点
相关操作请查看 资源组管理，选择完资源组后选择对应的计算资源。平台支持的计费规格请查看 计费概述。
3. 填写对应信息，新建好性能评测任务后，会在任务列表页展示：任务名称、评测模式、机器来源、评测资源、进度、创建者、创建时间，可进行的操作包括复制、删除、编辑及重启（若任务运行失败）或增加模型（若任务运行成功）。
﻿
4. 单击查看进度，可查看当前进度、状态、开始时间、结束时间。
﻿
﻿
﻿
5. 单击任务名称，进入任务详情页，可查看基本信息、整体评测结果和日志。整体评测结果介绍如下：
整体评测进度：显示评测进度，支持下载 csv 格式报告
﻿
﻿
﻿
整体指标，可筛选待评测模型和配置
﻿
﻿
﻿
不同并发数下的性能：鼠标悬停在数值上，点击设置按钮可把对应的数值作为最终的整体指标值，高亮显示方便快速定位
﻿
﻿
﻿
趋势查看：展示13个指标，包括延迟分布（p50/p90/p95/p99）、吞吐量（QPM（每分钟请求数）、TPM（每分钟 Token 数）、TPS（每秒 Token 数）、OutputTPM（每分钟输出 Token 数）、OutputTPS（每秒输出 Token 数））、成功率等
多模型对比：当有多个待评测模型的时候，可以进行多模型对比；可筛选待评测模型、配置及指标
﻿

参数	说明
任务名称	性能评测任务的名称，按照界面提示的规则填写即可
备注	可按需为任务备注描述信息
地域	同账号下的服务按地域进行隔离，地域字段取值根据您在服务列表页面所选择的地域自动带入
评测模式	直接评测：可设置不同固定并发和容量探测评测模式下的参数，选择不同的卡型进行测试从评测模板创建：可选择不同的评测模板，由于评测模板中已经配置好了参数，则选择不同的卡型进行测试即可
评测配置	若上一步选择“直接评测”，可以添加多个配置；若上一步选择“从评测模板创建”，则选择评测模板和配置后评测集不可更改，只能修改压测模式和参数。评测配置介绍如下：配置名称：对当前配置进行命名评测集从配置管理评测集中选择：需提前准备好数据存到系统的“配置管理”中，然后在下拉框选用随机生成：系统会自动生成一份符合规范的测试数据分词路径：模型 Tokenizer 配置文件的存储位置（支持 HuggingFace 路径）。系统将基于此路径加载分词器，用于精确计算随机数据 Token 化后的输入长度压测模式多并发模式：逐步加并发测试，每个并发测试跑15-20分钟并记录性能指标，当成功率 < 阈值时停止加压，每项性能指标取多次记录中最大的值容量探测模式：逐步加压测试，观测 tpm 值至预期负载（60%/80%/100%/120%）后，在预期负载下运行30-60分钟并观测性能指标通用参数输入长度：请求 Prompt 的 Token 长度，用于模拟不同上下文窗口下的负载特征输出长度：限制模型生成的最大 Token 数，直接影响推理计算量与吞吐量消耗发送次序：定义请求发送至被测服务的时序策略，决定压力的释放方式排队发送：并发情况下，每个 worker 接收模型服务完整的 Token（即该条请求结束）后，方可发起下一条请求一次性发送：每个 worker 在接收到当前请求的首个 Token 后即触发下一条请求发送。该模式可用于模拟 PD 分离（Prefill-Decode Separation）架构下 Prefill 节点的性能容量探测模式相关参数负载：期望达到的目标压力值负载百分比：定义当前探测阶段的压力水位达到负载后压测时长：压力达到目标值后，维持该负载的稳态运行时间起始并发数：压测启动时的初始并发连接数递增步长：每次加压时并发数的抬升幅度梯度时长：每一个压力梯度（并发等级）的持续运行时长多并发压测模式相关参数并发及请求数：压测过程中的并发及请求数，格式为并发数:每并发请求数，多条配置请换行分隔预热配置：用于填充缓存、建立连接池，避免冷启动数据污染正式结果，可选择开启或关闭预热并发：预热阶段使用的并发数预热时长：预热阶段的持续运行时间预热评测集：预热阶段使用的轻量级数据集终止条件最大并发数：压测允许达到的并发上限。无论加压策略如何，一旦触及该值即停止施压总体测试时长：整个压测任务的最长运行时间最大失败率：允许的请求失败比例阈值，当实时错误率超过该值时判定服务过载并终止任务最低生成速度：Token 生成的最小速率，若生成速度低于此值将触发终止评测指标：选择需要评测的指标，支持多选，勾选一级指标将全选该指标下的所有二级指标
待评测的模型	如有多个待评测模型，可以添加多个模型进行多模型对比模型/服务来源：选择待评测的模型。仅支持填写第三方服务地址进行评测待评测模型/服务：填写模型服务相关信息若上一步选择“从在线服务选择”，选择服务名称/版本后，其他信息将自动载入若上一步选择“填写服务地址”，需自行填写服务地址、调用接口及鉴权信息模型名称：展示在评测报告中的模型名称对比基线：可选择要对比的基线操作支持设置 System Prompt 支持进行参数设置，包括推理超参和性能参数设置配置推理超参，推理超参支持如下： repetition_penalty：用来控制重复惩罚 max_tokens：用来控制输出文本的最长数量 temperature：数值越高，输出越随机；数值越低，输出越集中和确定 top_p、top_k：影响输出文本的多样性，数值越高，生成文本的多样性越强。建议该参数和 temperature 只设置1个 do_sample：确定模型推理时的采样方式，取值 true 时为 sample 方式；取值为 false 时为 greedy search 方式，此时，top_p、top_k、temperature、repetition_penalty 不生效配置性能参数，平台配置默认参数 MAX_CONCURRENCY 和 MAX_RETRY_PER_QUERY MAX_CONCURRENCY 指评测过程中同时向模型发起的请求数上限；设置过低可能导致模型吞吐量下降导致评测耗时较长，设置过高可能导致显存溢出或请求超时（平台默认24）。用户可根据任务需求合理调整该值 MAX_RETRY_PER_QUERY 指每条数据在请求推理服务出现异常时（如请求超时或网络故障）的最大重试次数。该值为0则不进行重试（平台默认0）。用户可根据任务需求合理调整该值
机器来源及资源申请	可选择从 CVM 机器中选择和从 TIONE 平台购买若选择从 TIONE 平台购买，则需要选择算力规格和节点数量若选择从 CVM 机器中选择，则需要先创建资源组并购买节点相关操作请查看资源组管理，选择完资源组后选择对应的计算资源。平台支持的计费规格请查看计费概述。

性能评测

本页目录：

概述

前置条件

准备评测集

待评测模型/服务

操作步骤