用户3605500

LV1
发表了文章

详细解读TPH-YOLOv5 | 让目标检测任务中的小目标无处遁形

针对无人机捕获场景的目标检测是最近比较流行的一项任务。由于无人机在不同高度飞行,目标尺度变化较大,这样给模型的优化也带来了很大的负担。此外,在无人机进行高速低空...

用户3605500
发表了文章

详解分析 | ViT如何在医疗图像领域替代CNNs?

在自动医学图像诊断的领域中卷积神经网络(CNN)方法已经统治了将近十年之久。最近,vision transformers(ViTs)作为CNN的一个有竞争力的替...

用户3605500
发表了文章

详细解读 | 如何让你的DETR目标检测模型快速收敛

最近发展起来的DETR方法将transformer编解码器体系结构应用于目标检测并取得了很好的性能。在本文中,作者解决了训练收敛速度慢这一关键问题,并提出了一种...

用户3605500
发表了文章

Mobile-Former | MobileNet+Transformer轻量化模型(精度速度秒杀MobileNet)

最近,Vision Transformer(ViT)展示了全局处理的优势,与cnn相比实现了显著的性能提升。然而,当将计算预算限制在1G FLOPs内时,增益维...

用户3605500
发表了文章

牛津大学提出PSViT | Token池化+Attention Sharing让Transformer模型不在冗余!!!

在本文中,作者观察到在应用ViT进行图像识别时存在两级冗余。首先,固定整个网络的Token数量会在空间层面产生冗余特征;其次,不同Transformer之间的注...

用户3605500
发表了文章

YOffleNet | YOLO V4 基于嵌入式设备的轻量化改进设计

最新的基于CNN的目标检测模型相当精确,但需要高性能GPU实时运行。对于内存空间有限的嵌入式系统来说,它们在内存大小和速度方面依旧不是很好。

用户3605500
发表了文章

详细解读GraphFPN | 如何用图模型提升目标检测模型性能?

特征金字塔在需要多尺度特征的图像理解任务中已被证明是强大的。多尺度特征学习的最新方法侧重于使用具有固定拓扑结构的神经网络跨空间和尺度执行特征交互。

用户3605500
发表了文章

实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待?

相对位置编码(Relative position encoding, RPE)是Transformer获取输入Token序列顺序的重要方法。在自然语言处理中已证...

用户3605500
发表了文章

详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高

Transformer最近在各种任务上取得了令人瞩目的成果。为了进一步提高Transformer的有效性和效率,现有工作中有2种思路:

用户3605500
发表了文章

算法部署 | 万字长文带你从C++案例一步一步实操cmake(起飞系列)

你或许听过好几种Make工具,例如GNU Make ,QT的qmake ,微软的MS nmake,BSD Make(pmake),Makepp,等等。这些Mak...

用户3605500
发表了文章

详细解读 | Google与Waymo教你如何更好的训练目标检测模型!!!(附论文)

通过更好的模型架构、训练和推理方法的结合,目标检测系统的速度-精度Pareto曲线得到了改进。在本文中系统地评估了各种各样的技术,以理解现代检测系统的大多数改进...

用户3605500
发表了文章

解读UTNet | 用于医学图像分割的混合Transformer架构(文末获取论文)

Transformer架构已经在许多自然语言处理任务中取得成功。然而,它在医学视觉中的应用在很大程度上仍未得到探索。在这项研究中,本文提出了UTNet,这是一种...

用户3605500
发表了文章

DA-YOLO |多域自适应DA-YOLO解读,恶劣天气也看得见(附论文)

Domain Adaptation在解决许多应用中遇到的Domain Shift问题方面发挥了重要作用。这个问题的出现是由于用于训练的源数据的分布与实际测试场景...

用户3605500
发表了文章

基础学习系列 | 深度学习优化器使用详解(文末抽奖送书)

深度学习算法的本质是优化,实现的途径就是通过调整参数,使得损失尽可能的小。优化器就是实现优化的手段,它沿着损失函数导数的反方向调整参数,使得损失函数取值尽可能的...

用户3605500
发表了文章

简单有效 | 详细解读Interflow用注意力机制将特征更好的融合(文末获取论文)

传统的CNN模型具有层次结构,利用最后一层的特征映射来获得预测输出。然而,很难确定最优网络深度,并使中间层学习显著的特征。

用户3605500
发表了文章

详细解读PVT-v2 | 教你如何提升金字塔Transformer的性能?(附论文下载)

计算机视觉中的Transformer最近取得了令人鼓舞的进展。在这项工作中,作者通过添加3个改进设计来改进原始金字塔视觉Transformer(PVTv1),其...

用户3605500
发表了文章

详细解读 | CVPR 2021轻量化目标检测模型MobileDets(附论文下载)

构建在深度卷积上的Inverted bottleneck layers已经成为移动设备上最先进目标检测模型的主要构建模块。在这项工作中,作者通过回顾常规卷积的实...

用户3605500
发表了文章

即插即用模块 | CompConv卷积让模型不丢精度还可以提速(附论文下载)

卷积神经网络(CNN)在各种计算机视觉任务中取得了显著的成功,但其也依赖于巨大的计算成本。为了解决这个问题,现有的方法要么压缩训练大规模模型,要么学习具有精心设...

用户3605500
发表了文章

详细解读Google新作 | 教你How to train自己的Transfomer模型?

Vision Transformers(Vision transformer, ViT)在图像分类、目标检测和语义分割等视觉应用中得到了具有竞争力得性能。

用户3605500
发表了文章

CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)

图像的风格迁移是CNN在艺术领域的一种应用,这里的风格迁移是指将其中一幅图像的“风格”迁移到另一幅图像上,同时保留后者的内容。

用户3605500

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券