首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

北京交通大学等机构推出多模态大模型 MMICL,支持文本图像视频输入

据站长之家 9 月 19 日报道,北京交通大学等机构近日联合推出了新多模态大模型 MMICL。它支持文本、图像、视频三种模态的混合输入。

据悉,MMICL 在 MMBench 和 MME 两项多模态测评中均获得不俗的成绩,它采用 Flan-T5 XXL 作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的 MIC 数据集。这种训练方式让 MMICL 既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。目前,MMICL 已开源两个版本,分别基于 FlanT5XL 和 Vicuna 模型,可满足商用和科研需求。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OgfmXlbNRWmwAZPzRQzaD_WA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券