南洋理工开源，处理高清视觉输入的多模态AI大模型：OtterHD-8B

文章来源：企鹅号 - AI变革指南

传统的AI模型视觉编码器为固定尺寸，不够灵活，还无法处理高清图片。

为了解决这个问题，最近，南洋理工推出了80亿参数的多模态大模型OtterHD。

OtterHD-8B是一种创新的高分辨率的多模态模型，它是基于Fuyu-8B2的改进和扩展。

OtterHD-8B是怎样的？

OtterHD-8B是一种创新的高分辨率的多模态模型，它是基于Fuyu-8B2的改进和扩展。

下图是三种类型问题的示例演示。每个问题都与两种类型的问题和答案相关联。左右图像的分辨率为1080x1920像素，而中央图像的分辨率为640x480像素的

下图是0tterHD-8B的感知和识别演示。0tterHD-8B识别《清明上河图》（分辨率为2466x1766）并描述图片是什么，以及统计多少个骆驼。

OtterHD-8B在Fuyu-8B的基础上，做了两个主要的改进：

自适应分辨率的技术，让视觉编码器可以处理不同尺寸的输入，而不需要进行缩放或者裁剪。

具体来说，OtterHD-8B使用了一种叫做动态卷积的方法，让视觉编码器的卷积层可以根据输入的分辨率，自动调整卷积核的大小和步长，从而保持输出的特征图的尺寸不变。这样，OtterHD-8B就可以直接处理高分辨率的输入，例如1024×1024或者2048×2048，而不需要牺牲图像的细节和质量。

多尺度特征融合的技术，让视觉编码器可以同时利用不同分辨率的特征，从而提高模型的表达能力。

具体来说，OtterHD-8B使用了一种叫做特征金字塔网络的方法，让视觉编码器的每一层都可以输出不同分辨率的特征图，然后将这些特征图通过上采样或者下采样，融合到一个统一的分辨率，从而形成一个特征金字塔。这样，OtterHD-8B就可以同时捕捉图像的全局信息和局部信息，从而提高模型的识别能力。

得益于Fuyu简化的架构，如图2所示，这些修改大大提高了GPU的利用率和吞吐量。

OtterHD-8B的性能如何？

为了评估OtterHD-8B的性能，作者设计了一个评测框架，叫做MagnifierBench，它可以检测模型对于细节和小物体的空间关系的识别能力。

OtterHD-8B在MagnifierBench上展示了出色的性能，精度随着分辨率的提高而提高。OtterHD-8B还能够在训练过程中动态调整图像大小时，根据测试集中不同的图像分辨率和长宽比进行调整。

OtterHD-8B和其他模型对比，OtterHD-8B成功的数出了其中包含11个苹果

下图是不同模型对于图片数字和内容识别

论文地址：

https://arxiv.org/pdf/2311.04219.pdf

代码地址：

https://github.com/Luodian/Otter

相关快讯