概述
性能评测提供向导式的评测任务提交方式进行评测任务构建,可基于自定义评测集快速进行模型服务的压测以及对吞吐量、延迟等核心指标进行测试。其功能的详细描述为:
通过使用自定义的评测集、自定义压测参数启动评测任务,支持两种压测模式,分别为“固定并发压测”模式和“容量探测”的压测模式。
支持多配置任务组两种任务创建方式,便于同一模型在不同上下文长度、不同压测模式下的评测。
前置条件
创建性能评测任务时,需要用户准备好评测集(上传至自定义评测集)、待评测模型/服务。
准备评测集
内置评测集
自定义上传评测集
和直接使用平台内置的开源评测集不同的是,准备好评测集后,创建任务时需要填写评测集在 CFS/GooseFSx/数据源中的路径。
以 CFS 为例,为方便任务的创建,在准备评测集阶段,需要在开发机中挂载您的 CFS 文件系统,以获得评测时所需填写的路径。CFS 文件系统使用如下:
待评测模型/服务
从在线服务中选择
填写服务地址
评测时支持用户输入服务地址,用户需要提前准备好服务并记录服务地址以便填入。
操作步骤
1. 登录 TI-ONE 控制台,在左侧导航栏中选择 模型服务 > 模型评测,单击性能评测 Tab 页,进入任务列表页面。


2. 单击新建任务,拉起新建页面。
所需填写的信息如下:
参数 | 说明 |
任务名称 | 性能评测任务的名称,按照界面提示的规则填写即可 |
备注 | 可按需为任务备注描述信息 |
地域 | 同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入 |
评测模式 | 直接评测:可设置不同固定并发和容量探测评测模式下的参数,选择不同的卡型进行测试 从评测模板创建:可选择不同的评测模板,由于评测模板中已经配置好了参数,则选择不同的卡型进行测试即可 |
评测配置 | 若上一步选择“直接评测”,可以添加多个配置;若上一步选择“从评测模板创建”,则选择评测模板和配置后评测集不可更改,只能修改压测模式和参数。评测配置介绍如下: 配置名称:对当前配置进行命名 评测集 从配置管理评测集中选择:需提前准备好数据存到系统的“配置管理”中,然后在下拉框选用 随机生成:系统会自动生成一份符合规范的测试数据 分词路径:模型 Tokenizer 配置文件的存储位置(支持 HuggingFace 路径)。系统将基于此路径加载分词器,用于精确计算随机数据 Token 化后的输入长度 压测模式 多并发模式:逐步加并发测试,每个并发测试跑15-20分钟并记录性能指标,当成功率 < 阈值时停止加压,每项性能指标取多次记录中最大的值 容量探测模式:逐步加压测试,观测 tpm 值至预期负载(60%/80%/100%/120%)后,在预期负载下运行30-60分钟并观测性能指标 通用参数 输入长度:请求 Prompt 的 Token 长度,用于模拟不同上下文窗口下的负载特征 输出长度:限制模型生成的最大 Token 数,直接影响推理计算量与吞吐量消耗 发送次序:定义请求发送至被测服务的时序策略,决定压力的释放方式 排队发送:并发情况下,每个 worker 接收模型服务完整的 Token(即该条请求结束)后,方可发起下一条请求 一次性发送:每个 worker 在接收到当前请求的首个 Token 后即触发下一条请求发送。该模式可用于模拟 PD 分离(Prefill-Decode Separation) 架构下 Prefill 节点的性能 容量探测模式相关参数 负载:期望达到的目标压力值 负载百分比:定义当前探测阶段的压力水位 达到负载后压测时长:压力达到目标值后,维持该负载的稳态运行时间 起始并发数:压测启动时的初始并发连接数 递增步长:每次加压时并发数的抬升幅度 梯度时长:每一个压力梯度(并发等级)的持续运行时长 多并发压测模式相关参数 并发及请求数:压测过程中的并发及请求数,格式为并发数:每并发请求数,多条配置请换行分隔 预热配置:用于填充缓存、建立连接池,避免冷启动数据污染正式结果,可选择开启或关闭 预热并发:预热阶段使用的并发数 预热时长:预热阶段的持续运行时间 预热评测集:预热阶段使用的轻量级数据集 终止条件 最大并发数:压测允许达到的并发上限。无论加压策略如何,一旦触及该值即停止施压 总体测试时长:整个压测任务的最长运行时间 最大失败率:允许的请求失败比例阈值,当实时错误率超过该值时判定服务过载并终止任务 最低生成速度:Token 生成的最小速率,若生成速度低于此值将触发终止 评测指标:选择需要评测的指标,支持多选,勾选一级指标将全选该指标下的所有二级指标 |
待评测的模型 | 如有多个待评测模型,可以添加多个模型进行多模型对比 模型/服务来源:选择待评测的模型。仅支持填写第三方服务地址进行评测 ![]() 待评测模型/服务:填写模型服务相关信息 若上一步选择“从在线服务选择”,选择服务名称/版本后,其他信息将自动载入 ![]() 若上一步选择“填写服务地址”,需自行填写服务地址、调用接口及鉴权信息 ![]() 模型名称:展示在评测报告中的模型名称 对比基线:可选择要对比的基线 操作 支持设置 System Prompt 支持进行参数设置,包括推理超参和性能参数设置 配置推理超参,推理超参支持如下: repetition_penalty:用来控制重复惩罚 max_tokens:用来控制输出文本的最长数量 temperature:数值越高,输出越随机;数值越低,输出越集中和确定 top_p、top_k:影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和 temperature 只设置1个 do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效 配置性能参数,平台配置默认参数 MAX_CONCURRENCY 和 MAX_RETRY_PER_QUERY MAX_CONCURRENCY 指评测过程中同时向模型发起的请求数上限;设置过低可能导致模型吞吐量下降导致评测耗时较长,设置过高可能导致显存溢出或请求超时(平台默认24)。用户可根据任务需求合理调整该值 MAX_RETRY_PER_QUERY 指每条数据在请求推理服务出现异常时(如请求超时或网络故障)的最大重试次数。该值为0则不进行重试(平台默认0)。用户可根据任务需求合理调整该值 |
机器来源及资源申请 | 可选择从 CVM 机器中选择和从 TIONE 平台购买 若选择从 TIONE 平台购买,则需要选择算力规格和节点数量 若选择从 CVM 机器中选择,则需要先创建资源组并购买节点 |
3. 填写对应信息,新建好性能评测任务后,会在任务列表页展示:任务名称、评测模式、机器来源、评测资源、进度、创建者、创建时间,可进行的操作包括复制、删除、编辑及重启(若任务运行失败)或增加模型(若任务运行成功)。

4. 单击查看进度,可查看当前进度、状态、开始时间、结束时间。


5. 单击任务名称,进入任务详情页,可查看基本信息、整体评测结果和日志。整体评测结果介绍如下:
整体评测进度:显示评测进度,支持下载 csv 格式报告


整体指标,可筛选待评测模型和配置


不同并发数下的性能:鼠标悬停在数值上,点击设置按钮可把对应的数值作为最终的整体指标值,高亮显示方便快速定位


趋势查看:展示13个指标,包括延迟分布(p50/p90/p95/p99)、吞吐量(QPM(每分钟请求数)、TPM(每分钟 Token 数)、TPS(每秒 Token 数)、OutputTPM(每分钟输出 Token 数)、OutputTPS(每秒输出 Token 数))、成功率等
多模型对比:当有多个待评测模型的时候,可以进行多模型对比;可筛选待评测模型、配置及指标


