腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
GiantPandaCV
专栏成员
举报
722
文章
993140
阅读量
100
订阅数
订阅专栏
申请加入专栏
全部文章(722)
https(213)
网络安全(176)
编程算法(166)
神经网络(164)
深度学习(157)
人工智能(110)
模型(105)
机器学习(98)
图像识别(85)
github(67)
数据(63)
git(51)
pytorch(50)
开源(43)
python(36)
论文(33)
性能(33)
优化(32)
卷积神经网络(29)
图像处理(27)
批量计算(25)
kernel(25)
腾讯云测试服务(23)
函数(23)
存储(22)
网络(21)
ide(20)
c++(17)
数据结构(17)
翻译(17)
工作(17)
算法(17)
opencv(15)
数据分析(14)
框架(14)
css(13)
node.js(12)
内存(12)
人脸识别(11)
api(11)
linux(11)
block(11)
架构(11)
打包(10)
部署(10)
测试(10)
对象(10)
量化(10)
笔记(9)
编译(9)
单片机(8)
编码(8)
教程(8)
html(7)
文件存储(7)
分布式(7)
缓存(7)
监督学习(7)
cuda(7)
设计(7)
压缩(7)
LLM(7)
tcp/ip(6)
openai(6)
self(6)
tensor(6)
视频(6)
系统(6)
对象存储(5)
自动驾驶(5)
c#(5)
网站(5)
http(5)
ssh(5)
迁移(5)
channel(5)
lm(5)
models(5)
token(5)
tensorflow(4)
.net(4)
android(4)
mapreduce(4)
渲染(4)
决策树(4)
windows(4)
bit(4)
image(4)
model(4)
text(4)
编译器(4)
后端(4)
脚本(4)
内核(4)
通信(4)
线程(4)
图像分割(4)
NLP 服务(3)
arm(3)
容器镜像服务(3)
容器(3)
chatgpt(3)
epoch(3)
gpu(3)
mask(3)
max(3)
size(3)
state(3)
time(3)
torch(3)
变量(3)
接口(3)
连接(3)
入门(3)
索引(3)
效率(3)
学习笔记(3)
原理(3)
javascript(2)
日志服务(2)
企业(2)
html5(2)
无人驾驶(2)
面向对象编程(2)
keras(2)
二叉树(2)
flash(2)
markdown(2)
迁移学习(2)
fpga(2)
ghost(2)
学习方法(2)
智能推荐平台(2)
auto(2)
chat(2)
data(2)
embedding(2)
free(2)
input(2)
int(2)
key(2)
layer(2)
map(2)
nas(2)
normalization(2)
object(2)
patch(2)
profiler(2)
random(2)
rgb(2)
row(2)
scale(2)
set(2)
程序(2)
递归(2)
地图(2)
服务(2)
高性能(2)
工具(2)
基础(2)
集合(2)
解决方案(2)
进程(2)
开发者(2)
腾讯(2)
统计(2)
硬件(2)
语法(2)
源码(2)
重构(2)
负载均衡(1)
java(1)
bash(1)
jquery(1)
opengl(1)
汇编语言(1)
flask(1)
apache(1)
nginx(1)
bash 指令(1)
黑石物理服务器(1)
访问管理(1)
命令行工具(1)
SSL 证书(1)
高性能计算(1)
vr 视频解决方案(1)
出行(1)
serverless(1)
shell(1)
强化学习(1)
rpc(1)
无监督学习(1)
anaconda(1)
大数据(1)
数据处理(1)
腾讯云开发者社区(1)
网站渗透测试(1)
聚类算法(1)
分类算法(1)
汽车(1)
小程序·云开发(1)
alpha(1)
architecture(1)
backbone(1)
bi(1)
branch(1)
class(1)
core(1)
cpu(1)
crop(1)
cube(1)
dataset(1)
detection(1)
dsl(1)
encoding(1)
export(1)
file(1)
fold(1)
func(1)
gan(1)
google(1)
gpt(1)
gradient(1)
im(1)
kaggle(1)
label(1)
lambda(1)
leetcode(1)
llvm(1)
load(1)
local(1)
location(1)
mac(1)
mapping(1)
matrix(1)
mean(1)
memory(1)
meta(1)
mutable(1)
offset(1)
outlook(1)
output(1)
pdf(1)
position(1)
post(1)
prefix(1)
profile(1)
reshape(1)
rotation(1)
sap(1)
scaling(1)
schedule(1)
scope(1)
search(1)
sequence(1)
shared(1)
spatial(1)
sse(1)
std(1)
stream(1)
streaming(1)
sum(1)
table(1)
tail(1)
thread(1)
transform(1)
vector(1)
worker(1)
zero(1)
编程(1)
插件(1)
读书笔记(1)
多线程(1)
互联网(1)
开发(1)
流媒体(1)
排序(1)
排序算法(1)
配置(1)
日志(1)
事件(1)
手机(1)
数据存储(1)
异常(1)
原型(1)
字符串(1)
LoRa(1)
搜索文章
搜索
搜索
关闭
60行代码加速20倍 NEON实现深度学习OD任务后处理绘框
数据
深度学习
存储
测试
函数
【前言】 本文版权属于GiantPandaCV,未经允许,请勿转载!最近在学neon汇编加速,由于此前OD任务发现在检测后处理部分使用OpenCV较为占用资源且耗时,遂尝试使用NEON做后处理绘框,以达到加速并降低CPU资源消耗的目的。
BBuf
2024-06-18
132
0
如何用Infini-attention实现超长上下文Transformer
内存
效率
压缩
存储
模型
图 1:Infini-attention 添加了一个线性注意力的压缩记忆单元,用于处理无限长的上下文。{KV}s−1 和 {KV}s 分别是当前和之前输入段的注意力键和值,Qs 是注意力查询。PE 表示位置嵌入。
BBuf
2024-04-26
529
0
新进展!Larimar-让大型语言模型像人一样记忆与遗忘
事件
数据
存储
编码
模型
更新大型语言模型(LLM)中的知识是当前研究的一个重要挑战。本文介绍了Larimar——一种受大脑启发的新架构,它通过分布式情节记忆来增强LLM。Larimar的记忆系统能够在不需要重新训练或微调的情况下,动态地进行一次性知识更新。在多个事实编辑基准测试中,Larimar展示了与最有竞争力的基线相当的精度,即使在连续编辑的挑战性环境中也是如此。它在速度上也超过了基线,根据不同的LLM,可以实现4到10倍的加速。此外,由于其架构的简单性、LLM不可知论和通用性,Larimar也展示出了灵活性。我们还提供了基于Larimar的一次性记忆更新机制,包括选择性事实遗忘和输入上下文长度的泛化机制,并证明了它们的有效性。
BBuf
2024-03-27
429
0
AI Infra论文阅读之《在LLM训练中减少激活值内存》
论文
模型
内存
LLM
存储
写了一个Megatron-LM的3D Parallel进程组可视化的Playground,界面长下面这样:
BBuf
2024-03-26
575
0
深度学习编译器之公共子表达式消除和死代码消除实现
深度学习
存储
编译器
函数
优化
【省流】上次介绍了深度学习编译器之Layerout Transform优化 ,在这篇文章中提到还会介绍常量折叠优化Pass的实现,但在介绍常量折叠Pass之前我想再介绍一个类似的优化方法也就是公共子表达式消除实现(CSE)。仍然是以OneFlow中基于MLIR进行实现的CSE Pass为例子来讲解。在解析代码实现的过程中,我发现基于MLIR来做公共子表达式消除的时候还顺带做了死代码消除的功能。另外,在考虑公共子表达式消除的时候需要保证两个重复的操作处于同一个基本块中以及两个重复操作之间没有其它具有副作用的操作才可以消除。在OneFlow的实现中只是对OneFlow的UserOp的特殊属性即OpName和SymbolID进行了擦除,用一个魔法属性来代替,这是因为这两个属性不应该去影响公共子表达式的消除。这个优化还是比较有用的,在OneFlow的Stable Diffusion优化中发挥了不小的作用。
BBuf
2023-08-22
562
0
PyTorch消除训练瓶颈 提速技巧
https
网络安全
pytorch
存储
github
【GiantPandaCV导读】训练大型的数据集的速度受很多因素影响,由于数据集比较大,每个优化带来的时间提升就不可小觑。硬件方面,CPU、内存大小、GPU、机械硬盘orSSD存储等都会有一定的影响。软件实现方面,PyTorch本身的DataLoader有时候会不够用,需要额外操作,比如使用混合精度、数据预读取、多线程读取数据、多卡并行优化等策略也会给整个模型优化带来非常巨大的作用。那什么时候需要采取这篇文章的策略呢?那就是明明GPU显存已经占满,但是显存的利用率很低。
BBuf
2021-01-08
1.9K
0
深度学习的多个loss如何平衡 & 有哪些「魔改」损失函数,曾经拯救了你的深度学习模型?
存储
https
网络安全
深度学习
github
对于多任务学习而言,它每一组loss之间的数量级和学习难度并不一样,寻找平衡点是个很难的事情。我举两个我在实际应用中碰到的问题。第一个是多任务学习算法MTCNN,这算是人脸检测领域最经典的算法之一,被各家厂商魔改,其性能也是很不错的,也有很多版本的开源实现(如果不了解的话,请看:https://blog.csdn.net/qq_36782182/article/details/83624357)。但是我在测试各种实现的过程中,发现竟然没有一套实现是超越了原版的(https://github.com/kpzhang93/MTCNN_face_detection_alignment)。下图中是不同版本的实现,打了码的是我复现的结果。
BBuf
2020-06-18
6.3K
0
CPU上的实时人脸检测算法FaceBoxes
神经网络
https
存储
网络安全
对象存储
今天来介绍一个在CPU上可以实时运行的人脸检测器FaceBoxes,FaceBoxes仍然是以SSD为基础进行了改进,在速度和精度上都取得了较好的Trade-Off,所以就一起来看看这篇论文吧。
BBuf
2020-06-10
1.3K
0
在小尺寸人脸检测上发力的S3FD
图像识别
人脸识别
存储
编程算法
人脸检测领域目前主要的难点集中在小尺寸,模糊人脸,以及遮挡人脸的检测,这篇ICCV2017的S3FD(全称:Single Shot Scale-invariant Face Detector)即是在小尺寸人脸检测上发力。
BBuf
2020-04-22
868
0
【资源分享】从零开始学习SSD教程
深度学习
git
github
存储
开源
《从零开始学习SSD》教程是首发于GiantPandaCV公众号的一个完整的系列,针对的是Github上3.5k Star的SSD进行的讲解,地址为:
BBuf
2020-04-17
912
0
【CV中的特征金字塔】八,SSD的改进版之DSSD
存储
图像识别
编程算法
https
网络安全
DSDD全称为Deconvolutional Single Shot Detector,即在SSD算法的前面加了一个反卷积单词,这是CVPR 2017的一篇文章,主要是对SSD进行了一个改进。关于SSD的详细解释请看目标检测算法之SSD,然后关于反卷积请看深入理解神经网络中的反(转置)卷积。
BBuf
2020-04-15
905
0
【CV中的特征金字塔】七,SSD算法的改进版Rainbow SSD
存储
编程算法
图像识别
继续来开开脑洞,今天要介绍BMVC 2017的一个SSD的改进算法R-SSD。关于SSD可以看一下之前的论文笔记:目标检测算法之SSD,后面我也会整理出来一个非常详细的Pytorch版本的SSD代码的解读,确认无误后发送给感兴趣的同学。这里先看一下SSD的网络结构图吧。
BBuf
2020-04-01
1.1K
0
不需要预训练模型的目标检测算法DSOD
存储
图像识别
https
网络安全
linux
DSOD(Deeply Supervised Object Detectors)是ICCV 2017的一篇文章,它表达了一个非常有意思的东西。这篇论文不是从目标检测的高mAP值或者速度更快出发,而是从另外一个角度切入来说明fine-tune后的检测模型和直接训练的检测模型的差距其实是可以减少的,也即是说一些检测模型可以摆脱fine-tune这一过程,并且相比于fine-tune训练出来的模型效果并不会变差。
BBuf
2020-04-01
688
0
【CV中的特征金字塔】六,ECCV 2018 PFPNet
数据分析
.net
编程算法
存储
缓存
今天来学习一下这篇ECCV 2018的网络PFPNet,它借鉴了SPP的思想并通过MSCA(多尺度语义融合)模块来进行特征融合,进而提出了PFPNet来提升目标检测算法的效果。PFPNet在结构上借鉴了SSD,而在特征融合上借鉴了SPP思想加宽了网络,同时这里提出的MSCA模块完成了类似于FPN的特征融合,最后基于融合后的特征再进行检测,最终PFPNet在多个BenchMark上获得了和CVPR 2018 RefineDet相似的性能。
BBuf
2020-03-21
672
0
目标检测算法之ECCV 2018 RFBNet,在检测中调感受野
存储
图像识别
https
网络安全
腾讯云测试服务
今天为大家科普一篇ECCV 2018的一篇目标检测网络RFBNet,论文全名为:Receptive Field Block Net for Accurate and Fast Object Detection 。这篇论文主要的贡献点主要是在SSD网络中提出了一个Receptive Field Block (RFB) 模块,RFB模块主要是在Inception的基础上加入了空洞卷积层从而有效的增大了感受野。另外,RFB模块是嵌在SSD上的,所以检测的速度比较快,精度比SSD更高。
BBuf
2020-03-05
1.5K
0
【CV中的特征金字塔】二,Feature Pyramid Network
存储
https
网络安全
图像识别
在深度学习兴起以前,很多传统方法都会使用到图像金字塔。图像金字塔如上图所示,就是将图片resize到不同的大小,然后分别得到对应大小的特征,然后进行预测。这种方法虽然可以一定程度上解决多尺度的问题,但是很明显,带来的计算量也非常大。
BBuf
2020-03-03
1.4K
0
涨分利器!攻克目标检测难点秘籍之多尺度检测
图像识别
编程算法
存储
在前面的秘籍一:模型加速之轻量化网络和秘籍二:非极大抑制算法和回归损失优化之路中,我们主要关注了轻量化网络,非极大值抑制算法、回归损失优化。但是要想获得较好的检测性能,检测算法的多尺度检测也极为重要。
BBuf
2020-02-21
1.3K
0
目标检测算法之CVPR 2018 RefineDet
arm
存储
图像识别
小程序·云开发
编程算法
今天为大家介绍一篇CVPR 2018的一篇目标检测论文《Single-Shot Refinement Neural Network for Object Detection》,简称为RefineDet。RefineDet从网络结构入手,结合了one-stage目标检测算法和two-stage目标检测算法的优点重新设计了一个在精度和速度均为SOTA的目标检测网络。论文的思想值得仔细推敲,我们下面来一起看看。论文源码和一作开源的代码链接见附录。
BBuf
2019-12-24
754
0
目标检测算法之SSD的数据增强策略
存储
python
编程算法
这篇文章是对前面《目标检测算法之SSD代码解析》,推文地址如下:点这里的补充。主要介绍SSD的数据增强策略,把这篇文章和代码解析的文章放在一起学最好不过啦。本节解析的仍然是上篇SSD代码解析推文的pytorch版本的代码。源码地址见附录。
BBuf
2019-12-24
1K
0
目标检测算法之SSD
存储
图像识别
编程算法
机器学习
神经网络
昨天介绍了特征金字塔网络用于目标检测,提升了多尺度目标检测的鲁棒性,今天开始讲讲One-Stage目标检测算法中SSD算法。这个算法是我平时做工程中最常用到的,严格来说平时最常用的是Mobilenet做Backbone的SSD算法,因为要考虑到实际部署的时候的速度要求,不过原理都一样。
BBuf
2019-12-09
1.6K
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档