模型评测简介

最近更新时间:2025-03-25 20:34:43

我的收藏
「模型评测」提供通过向导式的评测任务提交方式进行 LLM 模型评测。腾讯云 TI 平台支持两种评测方式,分别为主观评测和客观评测。
主观评测:提供待评测模型推理后人工打分的功能,基于人工来评判模型效果;
客观评测:全程无需人工参与,TI 平台将基于内置的开源评测集或者是用户自定义上传的开源评测集以及内置的指标(如pass@1、ROUG、F1等),提供自动评测的功能。平台内置开源数据集来帮助用户快速开启大模型评测体验;客观评测也支持在训练过程中对训出的模型效果进行轻量体验,对 checkpoint 模型进行服务部署,用户可在对话框内和大模型进行问答,初步查看模型效果。
说明:
通常,在进行最佳实践时,主观评测和客观评测可以结合起来。例如,其中一个场景可以是先在模型开发过程中,基于开源数据集(可以扩展至企业内部沉淀的标准化自有数据集)先进行客观评测获得一个较为不错的结果后,在模型发布前的最后阶段,使用主观评测再次进行效果验证,或模型已上线后的随时效果评测。
针对主观评测和客观评测后的模型,支持可视化对比模型效果。可基于多个模型多个指标通过雷达图进行横向对比,为用户提供直观的效果对比展示。