浙江大学与蚂蚁集团等机构合作构建的SafeEdit数据集,旨在探讨知识编辑技术对大型语言模型解毒的可行性。该数据集包括4,050个训练样本、2,700个验证样本和1,350个测试样本,覆盖九种不安全类别,如法律、政治敏感、伦理道德等,并提供强大的攻击提示以诱导模型产生有害内容。SafeEdit的设计考虑了模型对恶意输入的防御成功率、对新型恶意输入的泛化防御能力,以及模型对正常用户请求的响应能力。该数据集为研究LLM的排毒问题提供了新的数据和评估框架,有助于推动该领域的发展,并可以应用于多种方法,如监督式微调、强化学习和知识编辑方法。
详情请参见五号雷达:https://www.5radar.com/result?key=SafeEdit
领取专属 10元无门槛券
私享最新 技术干货