首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
技术百科首页 >大模型应用 >大模型应用的性能评估指标有哪些?

大模型应用的性能评估指标有哪些?

词条归属:大模型应用

大模型应用性能评估指标因应用场景而异,以下是常见评估指标:

通用指标

  • ​准确率​​:分类任务常用指标,指分类正确样本数占总样本数的比例。如垃圾邮件分类,准确识别出的垃圾邮件和正常邮件数量之和与总邮件数量的比值。
  • ​精确率​​:预测为正类的样本中实际为正类的比例。以疾病诊断模型为例,预测患病的人当中真正患病的比例。
  • ​召回率​​:实际为正类的样本中被正确预测为正类的比例。还是疾病诊断场景,实际患病的人中被模型正确检测出来的比例。
  • ​F1值​​:精确率和召回率的调和平均数,用于综合考量两者,当需要平衡精确率和召回率时使用。
  • ​均方误差(MSE)​​:回归任务常用指标,预测值与真实值差值平方的平均值,衡量预测值与真实值的偏离程度。
  • ​平均绝对误差(MAE)​​:预测值与真实值差值绝对值的平均值,能直观反映预测值误差大小。

文本处理指标

  • ​困惑度​​:语言模型常用指标,衡量模型对文本预测的不确定性,值越低表示模型对文本预测能力越强。
  • ​词法、句法和语义准确率​​:评估模型在词法分析、句法分析和语义理解任务的准确性,如在信息抽取任务中对实体、关系识别的准确程度。

图像处理指标

  • ​像素精度​​:图像分割任务中,预测正确的像素数占总像素数的比例。
  • ​交并比(IoU)​​:预测区域与真实区域的交集和并集的比值,常用于评估目标检测和图像分割模型的性能。
  • ​峰值信噪比(PSNR)​​:衡量图像重建质量,值越高表示重建图像与原始图像越接近。

语音处理指标

  • ​字错误率(CER)​​:语音识别任务中,识别错误的字符数占所有字符数的比例。
  • ​词错误率(WER)​​:识别错误的词数占所有词数的比例。
  • 语音合成指标​​:如自然度、相似度等,评估合成语音的自然程度和与原始语音的相似程度。

效率指标

  • ​响应时间​​:从输入请求到模型输出结果的时间间隔,体现模型在实际应用中的响应速度。
  • ​吞吐量​​:单位时间内模型处理的请求数量,反映模型的处理能力。
相关文章
应用性能监控的特点 监控指标有哪些
运维部门的工作内容就是让平台和网站平稳地运行,并能够及时地去除掉所有的故障。许多app 在使用过程当中出现过系统崩溃或者错误现象,轻则影响用户的体验,重则给用户带来经济损失。而很多问题出现的时候却不知道到底是哪里出现了问题,是网络还是系统?还是安全性?正是由于这些问题,应用性能监控就显得非常必要。应用性能监控的特点都有什么呢?
用户8715145
2021-12-01
1.8K0
“大模型安全评估”需要评估哪些?
随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。大模型并非完美无缺,其内在风险可能带来严重的现实世界危害。因此,构建一套科学、系统、多维度的安全评估体系,不再是可选项,而是确保其健康发展的必然要求。#大模型备案##安全评估##生成式人工智能#
算法大模型-丁香
2025-08-26
2620
后端性能优化的指标有哪些_后端性能优化
响应时间 并发数目 吞吐量。常用的吞吐量指标:   ①TPS(每秒事务数)、
全栈程序员站长
2022-10-01
1.5K0
什么是单页应用性能监控?单页应用性能监控的指标有哪些
在互联网高速发展的时代,很多人每天上网的时间都非常长,各种影视和文字信息不断通过网络传递给我们。而大家也发现上网这件事变得越来越方便,也越来越流畅。所以大家对于上网时的网速要求也越来越高,不喜欢等待。有时候在上网时,网页的响应速度慢,很多网友都会直接选择划走,而很少等待。网站建立者为了留住用户,就会使用单页应用性能监控。
用户8715145
2022-03-18
7990
软件测试|性能测试中常用的性能指标有哪些?
一般,我们做性能测试的目标是,在大用户量、数据量的超负荷下,获得服务器运行时的相关数据,从而分析出系统瓶颈,提高系统的稳定性。
霍格沃兹测试开发Muller老师
2023-08-03
1.9K0
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券