首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

GPT-4o 迎来首位挑战者,变色龙

Meta的最新创新——变色龙(Chameleon)模型,旨在树立多模态人工智能的新标准,其参数规模达到了惊人的340亿。Chameleon和GPT-4o一样采用了统一的Transformer架构,采用“端到端”训练,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理,是挑战OpenAI的GPT-4o强力对手。变色龙在10万亿个token上进行了训练,这一惊人的数据量使其在性能上取得了突破性的进展。

变色龙与GPT-4o:多模态模型的新范式

GPT-4o的发布确立了一个全新的多模态模型发展范式。OpenAI称其为“首个‘原生’多模态”模型,这意味着GPT-4o不同于以往的任何模型。传统的多模态基础模型通常为每种模态采用特定的编码器或解码器,这限制了模型有效融合跨模态信息的能力。然而,GPT-4o是首个端到端训练的模型,跨越文本、视觉和音频模态,所有的输入和输出都由单个神经网络处理。

变色龙的技术创新

面对如此强大的对手,Meta的研究团队推出了“混合模态基座模型”——Chameleon。与GPT-4o类似,变色龙也采用了统一的Transformer架构,使用文本、图像和代码的混合模态进行训练。通过将图像离散“分词化”(tokenization),变色龙实现了文本和图像序列的交替生成和推理。

这种“早期融合”的方法使所有的pipeline从一开始就被映射到一个共同的表示空间,模型因此能够无缝处理文本和图像。然而,这种设计也带来了重大的技术挑战。为了应对这些挑战,Meta研究团队引入了一系列架构创新和训练技术。结果显示,在纯文本任务中,340亿参数的变色龙(用10万亿多模态token训练)的性能和Gemini-Pro相当。在视觉问答和图像标注基准上,变色龙刷新了SOTA(state-of-the-art),性能接近GPT-4V。

技术细节和挑战

变色龙的开发涉及许多技术细节和挑战。Meta在论文中指出,很多新发布的模型虽然采用了端到端的训练方式,但仍然对不同模态进行单独建模,使用分开的编码器或解码器。这限制了模型跨模态信息的能力,也难以生成包含任意形式信息的真正的多模态文档。为了解决这些问题,Meta提出了一系列“混合模态”的基座模型变色龙,能够生成文本和图像内容任意交织在一起的内容。

在模型架构上,变色龙通过将所有模态的信息映射到同一个向量空间中,使Transformer能够无缝处理所有模态的信息。这种方法虽然有效,但也带来了优化稳定性和模型扩展性方面的技术挑战。为了克服这些问题,研究团队采用了QK归一化和Zloss等优化技术。

未来展望

变色龙的发布标志着对GPT-4o的强有力挑战,并展示了Meta在多模态AI领域的领先地位。Meta的产品管理总监表示,他们非常自豪能够支持这个团队,让GPT-4o更接近开源社区。这一举措表明,不久的将来,我们可能会看到一个开源版的GPT-4o。

变色龙和GPT-4o的竞争将推动多模态AI技术的进一步发展,促进更多创新应用的出现。Meta和OpenAI的这些探索,将为实现通用人工智能(AGI)的最终愿景迈出重要的一步,各种模态将实现互通有无,为用户提供更加智能和便捷的服务。

尝试meta ai:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

A

I

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9AOexWzkdWS4728TIlW5P8A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券