首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏成员
722
文章
992266
阅读量
100
订阅数
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框
【前言】 本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。
BBuf
2024-06-18
1320
如何用Infini-attention实现超长上下文Transformer
图 1:Infini-attention 添加了一个线性注意力的压缩记忆单元,用于处理无限长的上下文。{KV}s−1 和 {KV}s 分别是当前和之前输入段的注意力键和值,Qs 是注意力查询。PE 表示位置嵌入。
BBuf
2024-04-26
5280
新进展!Larimar-让大型语言模型像人一样记忆与遗忘
更新大型语言模型(LLM)中的知识是当前研究的一个重要挑战。本文介绍了Larimar——一种受大脑启发的新架构,它通过分布式情节记忆来增强LLM。Larimar的记忆系统能够在不需要重新训练或微调的情况下,动态地进行一次性知识更新。在多个事实编辑基准测试中,Larimar展示了与最有竞争力的基线相当的精度,即使在连续编辑的挑战性环境中也是如此。它在速度上也超过了基线,根据不同的LLM,可以实现4到10倍的加速。此外,由于其架构的简单性、LLM不可知论和通用性,Larimar也展示出了灵活性。我们还提供了基于Larimar的一次性记忆更新机制,包括选择性事实遗忘和输入上下文长度的泛化机制,并证明了它们的有效性。
BBuf
2024-03-27
4280
AI Infra论文阅读之《在LLM训练中减少激活值内存》
写了一个Megatron-LM的3D Parallel进程组可视化的Playground,界面长下面这样:
BBuf
2024-03-26
5730
深度学习编译器之公共子表达式消除和死代码消除实现
【省流】上次介绍了深度学习编译器之Layerout Transform优化 ,在这篇文章中提到还会介绍常量折叠优化Pass的实现,但在介绍常量折叠Pass之前我想再介绍一个类似的优化方法也就是公共子表达式消除实现(CSE)。仍然是以OneFlow中基于MLIR进行实现的CSE Pass为例子来讲解。在解析代码实现的过程中,我发现基于MLIR来做公共子表达式消除的时候还顺带做了死代码消除的功能。另外,在考虑公共子表达式消除的时候需要保证两个重复的操作处于同一个基本块中以及两个重复操作之间没有其它具有副作用的操作才可以消除。在OneFlow的实现中只是对OneFlow的UserOp的特殊属性即OpName和SymbolID进行了擦除,用一个魔法属性来代替,这是因为这两个属性不应该去影响公共子表达式的消除。这个优化还是比较有用的,在OneFlow的Stable Diffusion优化中发挥了不小的作用。
BBuf
2023-08-22
5620
PyTorch消除训练瓶颈 提速技巧
【GiantPandaCV导读】训练大型的数据集的速度受很多因素影响,由于数据集比较大,每个优化带来的时间提升就不可小觑。硬件方面,CPU、内存大小、GPU、机械硬盘orSSD存储等都会有一定的影响。软件实现方面,PyTorch本身的DataLoader有时候会不够用,需要额外操作,比如使用混合精度、数据预读取、多线程读取数据、多卡并行优化等策略也会给整个模型优化带来非常巨大的作用。那什么时候需要采取这篇文章的策略呢?那就是明明GPU显存已经占满,但是显存的利用率很低。
BBuf
2021-01-08
1.9K0
深度学习的多个loss如何平衡 & 有哪些「魔改」损失函数,曾经拯救了你的深度学习模型?
对于多任务学习而言,它每一组loss之间的数量级和学习难度并不一样,寻找平衡点是个很难的事情。我举两个我在实际应用中碰到的问题。第一个是多任务学习算法MTCNN,这算是人脸检测领域最经典的算法之一,被各家厂商魔改,其性能也是很不错的,也有很多版本的开源实现(如果不了解的话,请看:https://blog.csdn.net/qq_36782182/article/details/83624357)。但是我在测试各种实现的过程中,发现竟然没有一套实现是超越了原版的(https://github.com/kpzhang93/MTCNN_face_detection_alignment)。下图中是不同版本的实现,打了码的是我复现的结果。
BBuf
2020-06-18
6.3K0
CPU上的实时人脸检测算法FaceBoxes
今天来介绍一个在CPU上可以实时运行的人脸检测器FaceBoxes,FaceBoxes仍然是以SSD为基础进行了改进,在速度和精度上都取得了较好的Trade-Off,所以就一起来看看这篇论文吧。
BBuf
2020-06-10
1.3K0
在小尺寸人脸检测上发力的S3FD
人脸检测领域目前主要的难点集中在小尺寸,模糊人脸,以及遮挡人脸的检测,这篇ICCV2017的S3FD(全称:Single Shot Scale-invariant Face Detector)即是在小尺寸人脸检测上发力。
BBuf
2020-04-22
8670
【资源分享】从零开始学习SSD教程
《从零开始学习SSD》教程是首发于GiantPandaCV公众号的一个完整的系列,针对的是Github上3.5k Star的SSD进行的讲解,地址为:
BBuf
2020-04-17
9120
【CV中的特征金字塔】八,SSD的改进版之DSSD
DSDD全称为Deconvolutional Single Shot Detector,即在SSD算法的前面加了一个反卷积单词,这是CVPR 2017的一篇文章,主要是对SSD进行了一个改进。关于SSD的详细解释请看目标检测算法之SSD,然后关于反卷积请看深入理解神经网络中的反(转置)卷积。
BBuf
2020-04-15
9050
【CV中的特征金字塔】七,SSD算法的改进版Rainbow SSD
继续来开开脑洞,今天要介绍BMVC 2017的一个SSD的改进算法R-SSD。关于SSD可以看一下之前的论文笔记:目标检测算法之SSD,后面我也会整理出来一个非常详细的Pytorch版本的SSD代码的解读,确认无误后发送给感兴趣的同学。这里先看一下SSD的网络结构图吧。
BBuf
2020-04-01
1.1K0
不需要预训练模型的目标检测算法DSOD
DSOD(Deeply Supervised Object Detectors)是ICCV 2017的一篇文章,它表达了一个非常有意思的东西。这篇论文不是从目标检测的高mAP值或者速度更快出发,而是从另外一个角度切入来说明fine-tune后的检测模型和直接训练的检测模型的差距其实是可以减少的,也即是说一些检测模型可以摆脱fine-tune这一过程,并且相比于fine-tune训练出来的模型效果并不会变差。
BBuf
2020-04-01
6880
【CV中的特征金字塔】六,ECCV 2018 PFPNet
今天来学习一下这篇ECCV 2018的网络PFPNet,它借鉴了SPP的思想并通过MSCA(多尺度语义融合)模块来进行特征融合,进而提出了PFPNet来提升目标检测算法的效果。PFPNet在结构上借鉴了SSD,而在特征融合上借鉴了SPP思想加宽了网络,同时这里提出的MSCA模块完成了类似于FPN的特征融合,最后基于融合后的特征再进行检测,最终PFPNet在多个BenchMark上获得了和CVPR 2018 RefineDet相似的性能。
BBuf
2020-03-21
6720
目标检测算法之ECCV 2018 RFBNet,在检测中调感受野
今天为大家科普一篇ECCV 2018的一篇目标检测网络RFBNet,论文全名为:Receptive Field Block Net for Accurate and Fast Object Detection 。这篇论文主要的贡献点主要是在SSD网络中提出了一个Receptive Field Block (RFB) 模块,RFB模块主要是在Inception的基础上加入了空洞卷积层从而有效的增大了感受野。另外,RFB模块是嵌在SSD上的,所以检测的速度比较快,精度比SSD更高。
BBuf
2020-03-05
1.5K0
【CV中的特征金字塔】二,Feature Pyramid Network
在深度学习兴起以前,很多传统方法都会使用到图像金字塔。图像金字塔如上图所示,就是将图片resize到不同的大小,然后分别得到对应大小的特征,然后进行预测。这种方法虽然可以一定程度上解决多尺度的问题,但是很明显,带来的计算量也非常大。
BBuf
2020-03-03
1.4K0
涨分利器!攻克目标检测难点秘籍之多尺度检测
在前面的秘籍一:模型加速之轻量化网络和秘籍二:非极大抑制算法和回归损失优化之路中,我们主要关注了轻量化网络,非极大值抑制算法、回归损失优化。但是要想获得较好的检测性能,检测算法的多尺度检测也极为重要。
BBuf
2020-02-21
1.3K0
目标检测算法之CVPR 2018 RefineDet
今天为大家介绍一篇CVPR 2018的一篇目标检测论文《Single-Shot Refinement Neural Network for Object Detection》,简称为RefineDet。RefineDet从网络结构入手,结合了one-stage目标检测算法和two-stage目标检测算法的优点重新设计了一个在精度和速度均为SOTA的目标检测网络。论文的思想值得仔细推敲,我们下面来一起看看。论文源码和一作开源的代码链接见附录。
BBuf
2019-12-24
7540
目标检测算法之SSD的数据增强策略
这篇文章是对前面《目标检测算法之SSD代码解析》,推文地址如下:点这里的补充。主要介绍SSD的数据增强策略,把这篇文章和代码解析的文章放在一起学最好不过啦。本节解析的仍然是上篇SSD代码解析推文的pytorch版本的代码。源码地址见附录。
BBuf
2019-12-24
1K0
目标检测算法之SSD
昨天介绍了特征金字塔网络用于目标检测,提升了多尺度目标检测的鲁棒性,今天开始讲讲One-Stage目标检测算法中SSD算法。这个算法是我平时做工程中最常用到的,严格来说平时最常用的是Mobilenet做Backbone的SSD算法,因为要考虑到实际部署的时候的速度要求,不过原理都一样。
BBuf
2019-12-09
1.6K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档