深度学习自然语言处理-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏成员

1035

文章

1345272

阅读量

164

订阅数

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

gpt 漏洞论文模型安全

刚刚，人工智能初创公司 Anthropic 宣布了一种「越狱」技术（Many-shot Jailbreaking）—— 这种技术可以用来逃避大型语言模型（LLM）开发人员设置的安全护栏。

2024-04-11

3290

大模型会输出隐式有害内容？听听清华大学研究人员怎么说！

强化学习安全工作模型数据

清华大学最新发布了一篇关于大模型安全的论文，不同于以往大部分专注于挖掘大模型可能输出的显式有害内容的工作。这篇论文将目光投向了研究更少，更难被检测到的隐式有害内容。

2023-12-05

4070

LLMs实际上在假对齐！

安全测试模型数据性能

对大型语言模型(LLM)中安全问题的意识日益增强，引发了人们对当前研究工作中的安全性评估的极大兴趣。本研究调查了与llm评估有关的一个有趣问题，即多重选择问题和开放式问题之间的性能差异。我们发现LLM对安全这一复杂概念的理解并不全面，它只记得回答开放式安全问题，而无法解决其他形式的安全测试。我们将这种现象称为假对齐，为解决这个问题，我们提出FAEF框架和两个新指标—一致性分数(CS)和一致性安全分数(CSS)，用来联合评估两种互补的评估形式，以量化假对齐并获得正确的性能估计。

2023-11-17

4690

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态