近日,谷歌最新研究揭示了一种攻击大型语言模型的方法,成功窃取了OpenAI GPT-3.5-turbo模型的关键信息。
根据谷歌的声明,他们不仅还原了OpenAI大模型的整个投影矩阵,还获得了确切的隐藏维度大小,而这一切只需不到2000次巧妙的API查询,成本低至150元。
该攻击方法不仅可以揭示模型的隐藏维度,还能获取模型的“宽度”(总体参数量)等全局性信息,降低模型的“黑盒程度”,为后续攻击“铺路”。研究团队表示,这种攻击非常高效,攻击OpenAI的Ada和Babbage模型以及GPT-3.5分别只需不到20美元和大约200美元。
在此事件曝光后,OpenAI已经采取了修改模型API的措施,防止类似攻击再次发生。
领取专属 10元无门槛券
私享最新 技术干货