GPT-4o 迎来首位挑战者，变色龙

文章来源：企鹅号 - 音乐字典

Meta的最新创新——变色龙（Chameleon）模型，旨在树立多模态人工智能的新标准，其参数规模达到了惊人的340亿。Chameleon和GPT-4o一样采用了统一的Transformer架构，采用“端到端”训练，跨越文本、视觉和音频的模型，所有的输入和输出，都由单个神经网络处理，是挑战OpenAI的GPT-4o强力对手。变色龙在10万亿个token上进行了训练，这一惊人的数据量使其在性能上取得了突破性的进展。

变色龙与GPT-4o：多模态模型的新范式

GPT-4o的发布确立了一个全新的多模态模型发展范式。OpenAI称其为“首个‘原生’多模态”模型，这意味着GPT-4o不同于以往的任何模型。传统的多模态基础模型通常为每种模态采用特定的编码器或解码器，这限制了模型有效融合跨模态信息的能力。然而，GPT-4o是首个端到端训练的模型，跨越文本、视觉和音频模态，所有的输入和输出都由单个神经网络处理。

变色龙的技术创新

面对如此强大的对手，Meta的研究团队推出了“混合模态基座模型”——Chameleon。与GPT-4o类似，变色龙也采用了统一的Transformer架构，使用文本、图像和代码的混合模态进行训练。通过将图像离散“分词化”（tokenization），变色龙实现了文本和图像序列的交替生成和推理。

这种“早期融合”的方法使所有的pipeline从一开始就被映射到一个共同的表示空间，模型因此能够无缝处理文本和图像。然而，这种设计也带来了重大的技术挑战。为了应对这些挑战，Meta研究团队引入了一系列架构创新和训练技术。结果显示，在纯文本任务中，340亿参数的变色龙（用10万亿多模态token训练）的性能和Gemini-Pro相当。在视觉问答和图像标注基准上，变色龙刷新了SOTA（state-of-the-art），性能接近GPT-4V。

技术细节和挑战

变色龙的开发涉及许多技术细节和挑战。Meta在论文中指出，很多新发布的模型虽然采用了端到端的训练方式，但仍然对不同模态进行单独建模，使用分开的编码器或解码器。这限制了模型跨模态信息的能力，也难以生成包含任意形式信息的真正的多模态文档。为了解决这些问题，Meta提出了一系列“混合模态”的基座模型变色龙，能够生成文本和图像内容任意交织在一起的内容。

在模型架构上，变色龙通过将所有模态的信息映射到同一个向量空间中，使Transformer能够无缝处理所有模态的信息。这种方法虽然有效，但也带来了优化稳定性和模型扩展性方面的技术挑战。为了克服这些问题，研究团队采用了QK归一化和Zloss等优化技术。

未来展望

变色龙的发布标志着对GPT-4o的强有力挑战，并展示了Meta在多模态AI领域的领先地位。Meta的产品管理总监表示，他们非常自豪能够支持这个团队，让GPT-4o更接近开源社区。这一举措表明，不久的将来，我们可能会看到一个开源版的GPT-4o。

变色龙和GPT-4o的竞争将推动多模态AI技术的进一步发展，促进更多创新应用的出现。Meta和OpenAI的这些探索，将为实现通用人工智能（AGI）的最终愿景迈出重要的一步，各种模态将实现互通有无，为用户提供更加智能和便捷的服务。

尝试meta ai:

https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

来

看

发表于: 2024-05-202024-05-20 14:36:11
原文链接：https://page.om.qq.com/page/O9AOexWzkdWS4728TIlW5P8A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

GPT-4o 迎来首位挑战者，变色龙

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐