开源的人工智能软件开发代理
普林斯顿自然语言处理研究人员开发了 SWE-agent,这是一个开源系统,将 GPT-4 转化为人工智能软件工程代理,可以自主解决 GitHub 仓库中的问题。
SWE-agent 在 SWE-bench 基准测试中实现了类似于最近热门的 AI 代理 Devin 的准确率,自主解决了 12.29% 的问题。
该代理的平均任务完成时间为 93 秒。
该系统与专用终端交互,可以打开和搜索文件、编辑特定行、编写和执行测试。
在 Devin 和现在的 SWE-agent 之间,自主编码代理正达到颠覆性水平。尽管还处于早期阶段,但这些人工智能工作者可以被用来构建应用程序或与开发者一起工作,带来巨大的生产力提升,而那些没有整合这项技术的人将被抛在后头。
苹果 Vision Pro 的空间 Persona
苹果 Vision Pro 用户现在可以在支持 SharePlay 的应用中启用空间 Persona,可以与其他用户在虚拟空间中进行协作、游戏和媒体消费。
空间 Persona 头像旨在复制用户的面部表情和手势。
最多可以有五个人一起观看电影和电视节目、玩游戏、协作和聚会。
用户可以控制自己所看到的内容,重新调整物体的位置,而不会影响其他用户的视图。
此功能需要 VisionOS 1.1,并通过 FaceTime 应用启用。
空间 Persona 是苹果试图使虚拟协作和社交互动更加自然和身临其境的尝试。如果成功,它可能会彻底改变教育、远程工作和娱乐等领域。
Anthropic 发现LLM越狱漏洞
Anthropic 研究人员发现了一种名为 "many-shot jailbreaking" 的新的越狱技术,可以通过利用扩展上下文窗口来规避大型语言模型(LLM)的安全防护措施。
many-shot jailbreaking 包括在输入中插入一系列模拟对话,以利用 LLM 的上下文学习能力。
引发有害响应的可能性随着提示中包含的对话(或 "shots")数量的增加而增加。
many-shot jailbreaking 的有效性与 "in-context learning" 过程有关,其中 LLM 使用提示上下文进行学习。
Anthropic 已向其他人工智能研究人员和公司通报了这一漏洞,并正在积极制定缓解策略。
many-shot jailbreaking 的发现凸显了LLM扩展上下文窗口的双刃剑性质。虽然更长的输入和上下文学习使模型更加有用,但也带来了新的漏洞类型。
领取专属 10元无门槛券
私享最新 技术干货