首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    全新SOTA骨干网络HIRI-ViT | 大力出奇迹,高分辨率+双路径设计,让Backbone卖力生产精度

    受到自然语言处理(NLP)[1]中占主导地位的Transformer结构的启发,计算机视觉(CV)领域见证了Vision Transformer(ViT)在视觉 Backbone 设计上的崛起。这一趋势在图像/动作识别[2, 3, 4, 5]和密集预测任务(如目标检测[6])中表现得最为明显。这些成功中的许多都可以归因于通过传统Transformer块中的自注意力机制对输入视觉token之间的长距离交互的灵活建模。最近,几项并行研究[7, 8, 9, 10, 11]指出,直接在视觉token序列上应用纯Transformer块是次优的。这种设计不可避免地缺乏对2D区域结构建模的正确感应偏差。为了缓解这一限制,它们引领了将卷积神经网络(CNN)的2D感应偏差注入ViT的新浪潮,产生了CNN+ViT混合 Backbone 。

    01

    基于深度卷积神经网络的图像超分辨率重建(SRCNN)学习笔记

    目前,单幅图像的超分辨率重建大多都是基于样本学习的,如稀疏编码就是典型的方法之一。这种方法一般先对图像进行特征提取,然后编码成一个低分辨率字典,稀疏系数传到高分辨率字典中重建高分辨率部分,然后将这些部分汇聚作为输出。以往的SR方法都关注学习和优化字典或者建立模型,很少去优化或者考虑统一的优化框架。 为了解决上述问题,本文中提出了一种深度卷积神经网络(SRCNN),即一种LR到HR的端对端映射,具有如下性质: ①结构简单,与其他现有方法相比具有优越的正确性,对比结果如下: ②滤波器和层的数量适中,即使在CPU上运行速度也比较快,因为它是一个前馈网络,而且在使用时不用管优化问题; ③实验证明,该网络的复原质量可以在大的数据集或者大的模型中进一步提高。 本文的主要贡献: (1)我们提出了一个卷积神经网络用于图像超分辨率重建,这个网络直接学习LR到HR图像之间端对端映射,几乎没有优化后的前后期处理。 (2)将深度学习的SR方法与基于传统的稀疏编码相结合,为网络结构的设计提供指导。 (3)深度学习在超分辨率问题上能取得较好的质量和速度。 图1展示了本文中的方法与其他方法的对比结果:

    02

    清华 & 阿里 开源 ConvLLaVA | 替代 Vision Transformer,解决图像处理中 Token 过多问题!

    大型多模态模型近年来取得了显著进展,在包括图像和视频理解、数字代理开发[53]和机器人技术[24]在内的多个领域表现出卓越性能。要理解和处理广泛任务和复杂场景的必要性凸显了视觉编码器的重要性,而视觉编码器主要是指Vision Transformer。然而,ViT的二次空间复杂性和过多的视觉标记输出限制了其在多样和高分辨率任务中的应用。过多的视觉标记导致大型语言模型的计算负担大幅增加,远远超过了视觉编码器中二次空间复杂度引起的计算成本。这种视觉标记的冗余不仅牺牲了效率,还阻碍了视觉信息的有效提取[31;11]。尽管提出了一系列方法(表1;[31;27;49])来修正ViT的二次空间复杂度,但它们未能解决视觉标记冗余的关键问题[5;28]。

    01
    领券