前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PromptBench:大型语言模型的对抗性基准测试

PromptBench:大型语言模型的对抗性基准测试

作者头像
deephub
发布2023-08-30 08:57:32
3210
发布2023-08-30 08:57:32
举报
文章被收录于专栏:DeepHub IMBA

PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步,随着这些模型在各种应用中越来越普遍,这个主题也变得越来越重要。

研究及其方法论

PromptBench采用多种对抗性文本攻击,研究人员生成了4000多个对抗性提示,然后通过8个任务和13个数据集对其进行评估。这种全面的方法确保了潜在漏洞的广泛覆盖,并提供了对LLM性能的可靠评估。

研究结果及影响

这项研究的结果表明,当代LLM很容易受到对抗性提示的影响。这个漏洞是一个需要解决的关键问题,以确保llm在实际应用程序中的可靠性和健壮性。作为数据科学家,我们必须意识到这些漏洞,并努力开发能够抵御此类对抗性攻击的模型。

论文还提供了快速减轻这些漏洞的建议。这些建议对于任何使用大模型的人来说都是非常宝贵的,并且可以指导开发更健壮的模型。

开源代码

研究人员已经公开了研究中使用的代码、提示和方法。我们必须继续调查,在它们研究的基础上进行更深入的研究,共同努力推进模型的改进,已经包括的模型如下:

  • google/flan-t5-large
  • databricks/dolly-v1–6b
  • llama-13b
  • vicuna-13
  • cerebras/Cerebras-GPT-13B
  • EleutherAI/gpt-neox-20b
  • google/flan-ul2
  • chatgpt

论文和研究地址:

https://arxiv.org/pdf/2306.04528.pdf

https://github.com/microsoft/promptbench

作者:Praveen Govindaraj

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究及其方法论
  • 研究结果及影响
  • 开源代码
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档