开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >大模型应用 >大模型应用的性能评估指标有哪些？

大模型应用的性能评估指标有哪些？

修改于 2025-05-12 18:14:16

611

词条归属：大模型应用

大模型应用性能评估指标因应用场景而异，以下是常见评估指标：

通用指标

准确率：分类任务常用指标，指分类正确样本数占总样本数的比例。如垃圾邮件分类，准确识别出的垃圾邮件和正常邮件数量之和与总邮件数量的比值。
精确率：预测为正类的样本中实际为正类的比例。以疾病诊断模型为例，预测患病的人当中真正患病的比例。
召回率：实际为正类的样本中被正确预测为正类的比例。还是疾病诊断场景，实际患病的人中被模型正确检测出来的比例。
F1值：精确率和召回率的调和平均数，用于综合考量两者，当需要平衡精确率和召回率时使用。
均方误差（MSE）：回归任务常用指标，预测值与真实值差值平方的平均值，衡量预测值与真实值的偏离程度。
平均绝对误差（MAE）：预测值与真实值差值绝对值的平均值，能直观反映预测值误差大小。

文本处理指标

困惑度：语言模型常用指标，衡量模型对文本预测的不确定性，值越低表示模型对文本预测能力越强。
词法、句法和语义准确率：评估模型在词法分析、句法分析和语义理解任务的准确性，如在信息抽取任务中对实体、关系识别的准确程度。

图像处理指标

像素精度：图像分割任务中，预测正确的像素数占总像素数的比例。
交并比（IoU）：预测区域与真实区域的交集和并集的比值，常用于评估目标检测和图像分割模型的性能。
峰值信噪比（PSNR）：衡量图像重建质量，值越高表示重建图像与原始图像越接近。

语音处理指标

字错误率（CER）：语音识别任务中，识别错误的字符数占所有字符数的比例。
词错误率（WER）：识别错误的词数占所有词数的比例。
语音合成指标：如自然度、相似度等，评估合成语音的自然程度和与原始语音的相似程度。

效率指标

响应时间：从输入请求到模型输出结果的时间间隔，体现模型在实际应用中的响应速度。
吞吐量：单位时间内模型处理的请求数量，反映模型的处理能力。

相关文章

应用性能监控的特点监控指标有哪些

udp 应用性能监控 app tcp 监控

运维部门的工作内容就是让平台和网站平稳地运行，并能够及时地去除掉所有的故障。许多app 在使用过程当中出现过系统崩溃或者错误现象，轻则影响用户的体验，重则给用户带来经济损失。而很多问题出现的时候却不知道到底是哪里出现了问题，是网络还是系统？还是安全性？正是由于这些问题，应用性能监控就显得非常必要。应用性能监控的特点都有什么呢？

2021-12-01

1.9K0

“大模型安全评估”需要评估哪些？

大模型部署

随着大型语言模型（LLM）如ChatGPT、文心一言等在众多领域展现出前所未有的能力，其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。大模型并非完美无缺，其内在风险可能带来严重的现实世界危害。因此，构建一套科学、系统、多维度的安全评估体系，不再是可选项，而是确保其健康发展的必然要求。#大模型备案##安全评估##生成式人工智能#

算法大模型-丁香

2025-08-26

3750

后端性能优化的指标有哪些_后端性能优化

缓存负载均衡负载均衡缓存数据结构

响应时间并发数目吞吐量。常用的吞吐量指标： ①TPS(每秒事务数)、

全栈程序员站长

2022-10-01

1.6K0

什么是单页应用性能监控？单页应用性能监控的指标有哪些

在互联网高速发展的时代，很多人每天上网的时间都非常长，各种影视和文字信息不断通过网络传递给我们。而大家也发现上网这件事变得越来越方便，也越来越流畅。所以大家对于上网时的网速要求也越来越高，不喜欢等待。有时候在上网时，网页的响应速度慢，很多网友都会直接选择划走，而很少等待。网站建立者为了留住用户，就会使用单页应用性能监控。

2022-03-18

8740

软件测试|性能测试中常用的性能指标有哪些？

一般，我们做性能测试的目标是，在大用户量、数据量的超负荷下，获得服务器运行时的相关数据，从而分析出系统瓶颈，提高系统的稳定性。

霍格沃兹测试开发Muller老师

2023-08-03

2K0

点击加载更多