首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏成员
1035
文章
1345272
阅读量
164
订阅数
长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免
刚刚,人工智能初创公司 Anthropic 宣布了一种「越狱」技术(Many-shot Jailbreaking)—— 这种技术可以用来逃避大型语言模型(LLM)开发人员设置的安全护栏。
zenRRan
2024-04-11
3290
大模型会输出隐式有害内容?听听清华大学研究人员怎么说!
清华大学最新发布了一篇关于大模型安全的论文,不同于以往大部分专注于挖掘大模型可能输出的显式有害内容的工作。这篇论文将目光投向了研究更少,更难被检测到的隐式有害内容。
zenRRan
2023-12-05
4070
LLMs实际上在假对齐!
对大型语言模型(LLM)中安全问题的意识日益增强,引发了人们对当前研究工作中的安全性评估的极大兴趣。本研究调查了与llm评估有关的一个有趣问题,即多重选择问题和开放式问题之间的性能差异。我们发现LLM对安全这一复杂概念的理解并不全面,它只记得回答开放式安全问题,而无法解决其他形式的安全测试。我们将这种现象称为假对齐,为解决这个问题,我们提出FAEF框架和两个新指标—一致性分数(CS)和一致性安全分数(CSS),用来联合评估两种互补的评估形式,以量化假对齐并获得正确的性能估计。
zenRRan
2023-11-17
4690
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档