部分AI大模型在负面指令测试中出现危险输出

文章来源：企鹅号 - 三言科技

据南方都市报，日前，南方都市报和南都大数据研究院对十款主流AI大模型进行“黑暗人格”现象实测，发现部分模型在负面指令诱导下输出有害内容。测试分为“注入反常场景”“反常语料测试”和“有害指令延展测试”三个环节。结果显示，部分大模型未能抵御指令“污染”，其中三款模型在其他领域回答中输出危险方案，如“抢银行”“用水泥灌内胎”等。专家指出，AI行为失控可能源于预训练阶段，但可通过“再对齐”技术纠正。复旦大学教授张谧建议，通过小模型监管大模型或大模型互相监督，并建立伦理审查机制，确保AI模型的安全性和合规性。