首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小视科技夺冠!大模型竞赛“一冠一季”收入囊中|CVPR 2023 VIZWIZ Grand Challenge

近日,CVPR 2023 VIZWIZ Grand Challenge Workshop 竞赛成绩公布。小视科技参赛团队在显著性目标检测赛道获得第一名,在视觉问答赛道中获得第三名。

小视团队夺得显著性目标检测赛道冠军。

小视团队夺得视觉问答赛道季军。

小视科技双赛道获“一冠一季”

CVPR是世界顶级的计算机视觉会议三大顶会之一,由IEEE主办,有着计算机视觉领域“奥斯卡”的美誉。本届VIZWIZ Grand Challenge Workshop 是由微软、苹果和科罗拉多大学博尔德分校等共同在CVPR上举办的国际性赛事。

这项比赛旨在解决视力障碍人群提出的需求,通过提升视觉算法的精度,满足他们对感知周围环境的需求,进而促使计算机视觉社区合作开发辅助技术的算法。

显著性目标检测赛道-小视冠军方案

显著性目标检测是CV领域的一项重要任务,旨在识别图片中最具显著性的目标物体或区域,让计算机理解图像中的哪些部分是人们关注的重点。

官方提供的数据集,图片均由视障人士拍摄。

官方数据集包括训练集19116张图片、验证集6105张图片、测试集6779张图片。

我们使用多模态模型预测得到显著图像的描述,如下图food,扩散模型根据描述在对应的位置生成目标,再分割得到生成图像对应的mask。利用这种方式能够有效的生成大量高质量的数据,增加数据的多样性。

生成图像及其mask的流程

我们以SelfReFormer作为基础框架,利用视觉大模型预训练权重提升了图像编码器(ImageEncoder)特征提取的能力。

图像编码器参数量对比

SelfReformer模型架构图

通过加入T2T模块的转化,将多个尺度特征进行融合,增加了模型对显著性目标的鉴别能力,带来了稳定的涨点。

T2T模块多尺度示意图

除此之外,我们利用投票机制进行模型选择,最终融合了SwinTransFormerv2和Dinov2两个编码器的结果。其他的trick比如二值化阈值调整、不同尺寸的腐蚀操作都会有微小的涨点。

我们的方案共有Sm、Em、Iou三项指标位列第一,总排名第一

视觉问答赛道-小视季军方案

视觉问答任务要求模型理解问题的语义、图像的视觉内容以及两者之间的关系,回答基于图像的问题。

VIZWIZ VQA数据集中,每个问题都收集了10个人的回答。采集的图片存在拍摄场景不完整、模糊或不清晰,收集的问题和回答也较为口语化。

官方提供了20523个图片-问题对作为训练集,4319个作为验证集,8000个作为测试集。

官方数据集

数据增广上,我们使用与显著性赛道相似的方式增加数据的多样性,使用多模态大模型生成对应的问题-答案对,有效扩充了图片和语料数据。

我们以Blip2作为基础框架。对语料进行了prompt增强,对视觉和语言大模型结合的部分Q-Former进行微调,LLM部分适配T5,VIT-L, VIT-G等多种大模型预测回答的结果,最终基于投票机制对多个模型的预测结果进行融合。

Blip2模型架构图

在本次比赛中,我们不仅丰富了在视觉大模型领域的技术栈,更是基于大模型强大的特征表示和模式识别能力,提升了生产算法在目标检测、追踪、分类,分割任务上的精度和场景泛化性,加速了我们的算法在各种复杂场景下的落地和实际应用能力。

比赛落幕,小视团队在全球AI开发者面前充分展示了自身的技术硬实力。

“一冠一季”的好成绩收入囊中后,小视团队希望能为计算机视觉技术的发展,尤其是大模型应用探索更多的落地空间,为AI惠及智慧城市、工业生产、机器人等领域积累更多技术储备。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOsOswhhMA4cXSsamyam-EcA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券