首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏作者
701
文章
869641
阅读量
96
订阅数
nndeploy:一款最新上线的支持多平台、简单易用、高性能的机器学习部署框架
nndeploy是一款最新上线的支持多平台、高性能、简单易用的机器学习部署框架,一套实现可在多端(云、边、端)完成模型的高性能部署。
BBuf
2023-09-19
3870
用于ARM Cortex-M系列的芯片的神经网络推理库CMSIS-NN详解
论文题目:《CMSIS-NN: Effificient Neural Network Kernels for Arm Cortex-M CPUs》, 2018年
BBuf
2022-09-28
2K0
时间序列预测paper、应用汇总
Optiver是全球顶尖的量化交易公司。10个月前,Optiver在Kaggle上面办的一场预测股票市场波动率的比赛。
BBuf
2022-09-28
2500
Instance-Conditioned GAN
作者:Arantxa Casanova, Marlene Careil, Jakob Verbeek, Michal Drozdzal, Adriana Romero Soriano
BBuf
2022-09-28
8330
CVPR2022:计算机视觉中长尾数据平衡对比学习
现实中的数据通常存在长尾分布,其中一些类别占据数据集的大部分,而大多数稀有样本包含的数量有限,使用交叉熵的分类模型难以很好的分类尾部数据。在这篇论文中,作者专注不平衡数据的表示学习。通过作者的理论分析,发现对于长尾数据,它无法形成理想的几何结构(在下文中解释该结构)。为了纠正 SCL(Supervised Contrastive Learning,有监督对比学习) 的优化行为并进一步提高长尾视觉识别的性能,作者提出了一种新的BCL(Balanced Contrastive Learning,平衡对比学习)损失。
BBuf
2022-09-28
1.9K0
MLSys 15-884: Course Introduction
本来是在找一些有趣的关于mlsys的paper,突然发现,相比我刚刚读Ph.D.那会,这个domain变得越来越火了,包括MLSys2022,OSDI2022好多这方面的paper,目测9月开WLK前,我都有大把的时间来搞这些东西,所以,这次肯定是能够把坑填完的。同时也发现爱丁堡的麦络老师也写了一本不错的关于mlsys的书籍:
BBuf
2022-05-27
7370
Tokens-to-token ViT: 对token做编码的纯transformer ViT,T2T算引入了CNN了吗?
T2T-ViT是纯transformer的形式,先对原始数据做了token编码后,再堆叠Deep-narrow网络结构的transformer模块,实际上T2T也引入了CNN。
BBuf
2022-04-06
5810
Kaggle Tensorflow StarFish挑战赛金牌分享
在去年,陆陆续续和队友@willer共同参加了一些计算机视觉竞赛(图像检测、分类竞赛),取得了一些不错的成绩。在年底,偶然得知Kaggle上有一个热度很高的还行检测的比赛,于是简单参考了一下。今天榜单揭晓,非常幸运,在比赛切换到了私榜后,分数大幅度提升,从初赛Public Leaderboard的1100多名直接上分到了Top10,很幸运的荣获了人生中的第一个Kaggle Gold。
BBuf
2022-04-06
6220
ViTAE:引入归纳偏置,浅层用CNN,深层用self-attention
引入归纳偏置,即局部性和尺度不变性,浅层用CNN编码token,深层用多头注意力机制做transformer的模块堆叠,是一次CNN和transformer结合探索,也是一个对送进多头注意力机制的token编码的探索,送进更信息更加聚合的token,来降低模型大小,提高分类任务的效果。
BBuf
2022-02-11
1K0
当可变形注意力机制引入Vision Transformer
通过在Transformer基础上引入Deformable CNN中的可变性能力,在降低模型参数量的同时提升获取大感受野的能力,文内附代码解读。
BBuf
2022-02-11
6280
CvT: 如何将卷积的优势融入Transformer
与之前BoTNet不同,CvT虽然题目中有卷积的字样,但是实际总体来说依然是以Transformer Block为主的,在Token的处理方面引入了卷积,从而为模型带来的局部性。最终CvT最高拿下了87.7%的Top1准确率。
BBuf
2022-01-27
6650
BoTNet:Bottleneck Transformers for Visual Recognition
基于Transformer的骨干网络,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet
BBuf
2021-12-29
6090
CNN、Transformer、MLP架构的经验性分析
ViT的兴起挑战了CNN的地位,随之而来的是MLP系列方法。三种架构各有特点,为了公平地比较几种架构,本文提出了统一化的框架SPACH来对比,得到了具有一定insight的结论。论文来自微软的A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP
BBuf
2021-12-27
6830
计算机视觉三大经典应用,你学废了吗?
计算机视觉研究的最终目标是使计算机能通过视觉观察和理解世界,具有自主适应环境的能力,在深度学习发展起来后,卷积神经网络被广泛应用到图像定位、目标检测、目标分割、目标跟踪、行为识别等应用方面。
BBuf
2021-11-12
7100
Deepfake视频中时空不一致学习
针对Deepfake Video检测任务上的时空不一致问题,提出了三种模块对时间信息、空间信息、时间差异进行建模,能够灵活地即插即用到2D CNN中。
BBuf
2021-10-08
7720
Involution再思考:三大任务涨点明显
【GiantPandaCV导语】在被Transformer结构刷榜之前,CNN一直都是CV任务的标配。卷积有两个基本性质,分别是空间不变性 (spatial-agnostic)和通道特异性 (channel-specific)。空间不变性使得卷积能够在所有位置共享参数,并充分利用视觉特征的“平移等变性”。通道特异性使得卷积能够充分建模通道之间的关系,提高模型的学习能力。
BBuf
2021-07-23
6340
OutLook Attention:具有局部信息感知能力的ViT
近段时间,Transformer-based模型在Visual Recognition领域取得了非常大的进展。但是如果不借助额外的训练数据,Transformer-based模型离CNN-based模型还是具有一定的差距(NFNet-F5(CNN-based):86.8%,CaiT(Transformer-based):86.5%)。作者认为,这是因为token embedding并没有进行细粒度特征表示,因此本文提出了一种新的Attention方式,通过局部信息的感知,能够获得更加细粒度的特征表示。
BBuf
2021-07-23
5590
思考NLP和CV中的Local和Global建模
CNN的感受野受卷积核大小的限制,导致了CNN实际上是一种Local的信息建模;而Self-Attention(SA)是将每个位置和所有位置计算attention weight,考虑了每个点之间的联系,因此SA是一种Global的建模。
BBuf
2021-07-23
5010
图解 RepMLP
本文提出了一个由多个全连接层构成的用于图像分类的模块RepMLP。全连接层能够高效地建模长距离依赖和位置模式,但不能很好地捕捉局部信息(擅长这件事情的是卷积)。我们在RepMLP中引入了卷积操作来捕捉局部信息,并在推理阶段将卷积核权重融入到全连接层中。该模块能充分利用全连接层的全局表征能力以及卷积层的局部捕捉特性,在图像分类任务上有不错的提升。
BBuf
2021-07-01
5830
A Survey of Transformer 一篇Transformer综述(上)
Transformer现在是一种在各个领域被广泛使用的模型,包括NLP,CV,语音领域。随着这几年发展,一些Transformer的变体在以下几个方面进行改进:
BBuf
2021-07-01
1.5K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档