首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

南洋理工开源,处理高清视觉输入的多模态AI大模型:OtterHD-8B

传统的AI模型视觉编码器为固定尺寸,不够灵活,还无法处理高清图片。

为了解决这个问题,最近,南洋理工推出了80亿参数的多模态大模型OtterHD。

OtterHD-8B是一种创新的高分辨率的多模态模型,它是基于Fuyu-8B2的改进和扩展。

OtterHD-8B是怎样的?

OtterHD-8B是一种创新的高分辨率的多模态模型,它是基于Fuyu-8B2的改进和扩展。

下图是三种类型问题的示例演示。每个问题都与两种类型的问题和答案相关联。左右图像的分辨率为1080x1920像素,而中央图像的分辨率为640x480像素的

下图是0tterHD-8B的感知和识别演示。0tterHD-8B识别《清明上河图》(分辨率为2466x1766)并描述图片是什么,以及统计多少个骆驼。

OtterHD-8B在Fuyu-8B的基础上,做了两个主要的改进:

自适应分辨率的技术,让视觉编码器可以处理不同尺寸的输入,而不需要进行缩放或者裁剪。

具体来说,OtterHD-8B使用了一种叫做动态卷积的方法,让视觉编码器的卷积层可以根据输入的分辨率,自动调整卷积核的大小和步长,从而保持输出的特征图的尺寸不变。这样,OtterHD-8B就可以直接处理高分辨率的输入,例如1024×1024或者2048×2048,而不需要牺牲图像的细节和质量。

多尺度特征融合的技术,让视觉编码器可以同时利用不同分辨率的特征,从而提高模型的表达能力。

具体来说,OtterHD-8B使用了一种叫做特征金字塔网络的方法,让视觉编码器的每一层都可以输出不同分辨率的特征图,然后将这些特征图通过上采样或者下采样,融合到一个统一的分辨率,从而形成一个特征金字塔。这样,OtterHD-8B就可以同时捕捉图像的全局信息和局部信息,从而提高模型的识别能力。

得益于Fuyu简化的架构,如图2所示,这些修改大大提高了GPU的利用率和吞吐量。

OtterHD-8B的性能如何?

为了评估OtterHD-8B的性能,作者设计了一个评测框架,叫做MagnifierBench,它可以检测模型对于细节和小物体的空间关系的识别能力。

OtterHD-8B在MagnifierBench上展示了出色的性能,精度随着分辨率的提高而提高。OtterHD-8B还能够在训练过程中动态调整图像大小时,根据测试集中不同的图像分辨率和长宽比进行调整。

OtterHD-8B和其他模型对比,OtterHD-8B成功的数出了其中包含11个苹果

下图是不同模型对于图片数字和内容识别

论文地址:

https://arxiv.org/pdf/2311.04219.pdf

代码地址:

https://github.com/Luodian/Otter

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvqAuuInwAQwZdO1h-f4ISQA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券