首页
学习
活动
专区
工具
TVP
发布

CVer

专栏作者
386
文章
555139
阅读量
194
订阅数
​NeurIPS 2022 | IPMT:用于小样本语义分割的中间原型挖掘Transformer
本文简要介绍发表在NeurIPS 2022上关于小样本语义分割的论文《Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation》。该论文针对现有研究中忽视查询和支持图像之间因类内多样性而带来的类别信息的差距,而强行将支持图片的类别信息迁移到查询图片中带来的分割效率低下的问题,引入了一个中间原型,用于从支持中挖掘确定性类别信息和从查询中挖掘自适应类别知识,并因此设计了一个中间原型挖掘Transformer。文章在每一层中实现将支持和查询特征中的类型信息到中间原型的传播,然后利用该中间原型来激活查询特征图。借助Transformer迭代的特性,使得中间原型和查询特征都可以逐步改进。相关代码已开源在:
Amusi
2022-11-30
5830
MAE同期工作!MSRA新作SimMIM收录CVPR 2022!高达87.1%准确率!掩码图像建模新框架
Amusi 注意到去年11月份何恺明一作的MAE收录到CVPR 2022 Oral!详见:何恺明一作MAE收录CVPR 2022 Oral!高达87.8%准确率!自监督领域新代表作,也刚刚注意到:同年11月份MSRA的SimMIM工作也成功收录到了CVPR 2022。目前MIM 方向越来越火热,大家可以关注一波。
Amusi
2022-04-18
7200
实验室可以训练(De)CLIP了!商汤ICLR2022 DeCLIP正式开源!
作为2021年的重要里程碑,CLIP 一经问世便吸引了广大研究人员的关注。但是4亿的图片-文本对数据,数百张的GPU卡需求,让研究者望而生畏。
Amusi
2022-04-18
1.1K0
中科院提出:视觉-语言预训练(VLP)综述,了解多模态最新进展!
让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模型。
Amusi
2022-04-18
1.8K0
90.94%准确率!谷歌刷新ImageNet新纪录!Model soups:提高模型的准确性和稳健性
将它扩展到多个图像分类以及自然语言处理任务中,也能提高模型的分布外性能,并改善新下游任务的零样本性能。
Amusi
2022-04-18
5250
CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法
本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作。该工作将文本和参考图像条件统一在了一个框架内,在单个模型内支持广泛的图像和文本作为输入条件从而完成相应的头发编辑任务。代码正在逐步开源,欢迎大家试用。
Amusi
2022-03-23
6470
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力:
Amusi
2021-12-01
8470
一文看尽12种Dropout及其变体
深入了解DNNs,CNNs以及RNNs中的Dropout来进行正则化,蒙特卡洛不确定性和模型压缩的方法。
Amusi
2020-06-11
3.6K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档