会 "接话" 的 AI 来了!
它就是英伟达推出的开源全双工语音模型:PersonaPlex
NVIDIA 称它是首个支持文本角色提示和音频声音调节的实时全双工语音对话模型!
(字节推出了国内版本的Seeduplex全量上线豆包应用,中美竞争真是你追我赶!但字节的是闭源,不开源)
真・全双工对话,AI 终于学会 "听着说话"
PersonaPlex 最革命性的突破,就是实现了真正的全双工语音交互。
传统语音助手只能你说一句,我等一句,必须等你说完才能回应,完全不符合人类对话的自然习惯。
而 PersonaPlex 可以同时听和说,支持人类对话的所有动态:附和、打断、重叠、自然停顿。
说人话就是之前的AI聊天类似对讲机,现在可以完全像真人一样,在适当的时候附和你,就像和真人聊天一样自然流畅!
我试用了感受了一下效果,真的十分惊艳!
这以后诈骗用上了,老人可能很难分辨真假了....
PersonaPlex 基于 NVIDIA 自研的 Moshi 架构和权重,通过合成和真实对话数据混合训练,能产生低延迟、自然的口语交互,同时保持一致的角色特征。
三层架构,RTX 显卡就能本地部署
PersonaPlex 基于 Moshi 架构,采用高效的深度学习设计,让强大的全双工对话能力在普通硬件上也能流畅运行。
它的核心架构分为三层:
语音输入层:实时捕获音频,支持噪声抑制和语音活动检测,精准判断何时倾听、何时回应
对话理解与生成层:基于 Helium LLM 的强大理解能力,结合角色提示,生成符合语境和身份的回应,同时保持对话流畅性
语音输出层:低延迟合成自然语音,支持实时调整语速、语调,与输入音频无缝衔接,实现真正的全双工体验
最令人惊喜的是,PersonaPlex 对硬件要求并不高
(必须使用NVIDIA GPU(支持 CUDA),AMD 或 Intel 显卡不兼容)
PersonaPlex 模型加载后占用约18GB 显存,一块普通的 RTX 显卡就能本地部署,甚至在资源有限的情况下,还支持 CPU offload 模式,让模型在内存不足的 GPU 上也能运行。
项目地址:
https://github.com/NVIDIA/personaplex