传统的AI模型视觉编码器为固定尺寸,不够灵活,还无法处理高清图片。
为了解决这个问题,最近,南洋理工推出了80亿参数的多模态大模型OtterHD。
OtterHD-8B是一种创新的高分辨率的多模态模型,它是基于Fuyu-8B2的改进和扩展。
OtterHD-8B是怎样的?
OtterHD-8B是一种创新的高分辨率的多模态模型,它是基于Fuyu-8B2的改进和扩展。
下图是三种类型问题的示例演示。每个问题都与两种类型的问题和答案相关联。左右图像的分辨率为1080x1920像素,而中央图像的分辨率为640x480像素的
下图是0tterHD-8B的感知和识别演示。0tterHD-8B识别《清明上河图》(分辨率为2466x1766)并描述图片是什么,以及统计多少个骆驼。
OtterHD-8B在Fuyu-8B的基础上,做了两个主要的改进:
自适应分辨率的技术,让视觉编码器可以处理不同尺寸的输入,而不需要进行缩放或者裁剪。
具体来说,OtterHD-8B使用了一种叫做动态卷积的方法,让视觉编码器的卷积层可以根据输入的分辨率,自动调整卷积核的大小和步长,从而保持输出的特征图的尺寸不变。这样,OtterHD-8B就可以直接处理高分辨率的输入,例如1024×1024或者2048×2048,而不需要牺牲图像的细节和质量。
多尺度特征融合的技术,让视觉编码器可以同时利用不同分辨率的特征,从而提高模型的表达能力。
具体来说,OtterHD-8B使用了一种叫做特征金字塔网络的方法,让视觉编码器的每一层都可以输出不同分辨率的特征图,然后将这些特征图通过上采样或者下采样,融合到一个统一的分辨率,从而形成一个特征金字塔。这样,OtterHD-8B就可以同时捕捉图像的全局信息和局部信息,从而提高模型的识别能力。
得益于Fuyu简化的架构,如图2所示,这些修改大大提高了GPU的利用率和吞吐量。
OtterHD-8B的性能如何?
为了评估OtterHD-8B的性能,作者设计了一个评测框架,叫做MagnifierBench,它可以检测模型对于细节和小物体的空间关系的识别能力。
OtterHD-8B在MagnifierBench上展示了出色的性能,精度随着分辨率的提高而提高。OtterHD-8B还能够在训练过程中动态调整图像大小时,根据测试集中不同的图像分辨率和长宽比进行调整。
OtterHD-8B和其他模型对比,OtterHD-8B成功的数出了其中包含11个苹果
下图是不同模型对于图片数字和内容识别
论文地址:
https://arxiv.org/pdf/2311.04219.pdf
代码地址:
https://github.com/Luodian/Otter
领取专属 10元无门槛券
私享最新 技术干货