你是否想过,有没有一种AI系统,可以根据你的指令,生成你想要的多模态内容,比如一首歌曲、一段视频、一幅画或一篇文章?
如果你有这样的想法,那么你一定会对NExT-GPT感兴趣。
NExT-GPT是新加坡国立大学的华人团队最近开源的全能多模态模型。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。
NExT-GPT的全称是NExT-Generation Pre-trained Transformer,它是基于预训练的大型语言模型(LLM)构建的。
它利用了现有的高性能的多模态编码器和解码器,只需要微调少量(1%)的投影层参数,就可以实现多模态之间的语义理解和内容生成。这样不仅节省了训练成本,也方便了扩展到更多潜在的模态。
NExT-GPT主要包括三个阶段:
多模态编码阶段:利用现有的优秀模型来编码各种模态的输入。这里采用了ImageBind,它是一个统一的高性能编码器,支持六种模态。然后,通过线性投影层,将不同输入的表示映射到语言模型可以理解的表示。
LLM理解和推理阶段:使用LLM作为NExT-GPT的核心代理。这里采用了Vicuna。LLM接收来自不同模态的表示,并对输入进行语义理解和推理。它输出1)直接的文本回复,以及2)每种模态的信号令牌,作为指令来指导解码层是否生成多模态内容,以及如果是的话,生成什么内容。
多模态生成阶段:接收来自LLM(如果有)的带有特定指令的多模态信号,在变换器(Transformer)基础上输出投影层将信号令牌表示映射到后续多模态解码器可以理解的表示。
NExT-GPT还引入了一种模态切换指令微调(MosIT)方法,并手工策划了一个高质量数据集来进行MosIT。基于此,NExT-GPT具备了复杂跨模态语义理解和内容生成能力。
总之,NExT-GPT展示了构建一个能够建模通用模态的AI代理的有希望可能性,在社区中为更加人性化AI研究铺平了道路。
项目地址:
https://next-gpt.github.io/
代码地址:
https://github.com/NExT-GPT/NExT-GPT
论文地址:
https://arxiv.org/abs/2309.05519
领取专属 10元无门槛券
私享最新 技术干货