首页
学习
活动
专区
工具
TVP
发布

深度学习和计算机视觉

专栏成员
989
文章
1281299
阅读量
129
订阅数
TPAMI 2024 | MVEB:使用多视图熵瓶颈的自监督学习
MVEB: Self-Supervised Learning With Multi-View Entropy Bottleneck
小白学视觉
2024-09-25
150
使用OpenCV进行检测、跟踪移动物体
本文关键词:OpenCV、Python、背景减除器、KNN、MOG2、目标检测与追踪
小白学视觉
2024-09-25
160
视觉工程师必备视觉知识
机器视觉是一门学科技术,广泛应用于生产制造检测等工业领域,用来保证产品质量,控制生产流程,感知环境等。机器视觉系统是将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。
小白学视觉
2024-09-25
150
我愿称之为史上最全的深度学习面经总结(附答案详解)
来源丨https://zhuanlan.zhihu.com/p/391954665
小白学视觉
2024-09-23
710
仅仅一个树莓派就可以做的目标检测
目标检测是各种应用中使用的强大工具,从安全系统到机器人技术。通过OpenCV和树莓派,您可以在小巧、经济实惠的平台上实现目标检测。在这篇文章中,我们将引导您通过在树莓派上使用OpenCV设置目标检测系统。
小白学视觉
2024-09-18
1180
TPAMI 2024 | 逐点监督下的噪声标注建模
在计算机视觉任务中,如人群计数和人体姿态估计,广泛采用了逐点监督。在实践中,点注释中的噪声可能会显著影响算法的性能和鲁棒性。在本文中,我们研究了逐点监督中注释噪声的影响,并为不同任务提出了一系列鲁棒的损失函数。特别是,点注释噪声包括空间位移噪声、遗漏点噪声和重复点噪声。空间位移噪声是最常见的一种,存在于人群计数、姿态估计、视觉跟踪等场景中,而遗漏点和重复点噪声通常出现在密集注释中,如人群计数。在本文中,我们首先通过将真实位置建模为随机变量,将注释点视为真实位置的噪声观测,来考虑位移噪声。中间表示(由点注释生成的平滑热图)的概率密度函数被推导出来,并使用负对数似然作为损失函数,以自然地模拟中间表示中的位移不确定性。遗漏和重复噪声进一步通过经验方式建模,假设噪声以高概率出现在高密度区域。我们将该方法应用于人群计数、人体姿态估计和视觉跟踪,为这些任务提出了鲁棒的损失函数,并在广泛使用的数据集上实现了优越的性能和鲁棒性。
小白学视觉
2024-09-18
570
为什么 Batch Normalization 那么有用?
How Does Batch Normalization Help Optimization?
小白学视觉
2024-09-18
740
Python异常值的自动检测实战案例
异常值检测(outlier)是一种数据挖掘过程,用于确定数据集中发现的异常值并确定其出现的详细信息。当前自动异常检测至关重要,因为大量数据无法手动标记异常值。自动异常检测具有广泛的应用,例如信用卡欺诈检测,系统健康监测,故障检测以及传感器网络中的事件检测系统等。今天我们就通过使用python来实现异常值的自动检测系统的实战开发。我们将会使用以下技术来实现异常值检测:
小白学视觉
2024-09-11
1540
对比学习在学啥?
来源丨https://zhuanlan.zhihu.com/p/634466306
小白学视觉
2024-09-10
900
卷积核的基本概况
在机器学习篇章中,我们简单介绍了卷积核,今天,我们借助知乎的一篇文章,梳理一下对卷积核一些基本情况。
小白学视觉
2024-09-10
1160
语义分割中的 loss function 最全面汇总
来源丨https://zhuanlan.zhihu.com/p/101773544
小白学视觉
2024-09-10
740
重新聚焦Attention在微调大模型中的重要性
来源丨https://zhuanlan.zhihu.com/p/632301499
小白学视觉
2024-09-10
1060
一文了解Numpy核心语法和代码梳理
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。
小白学视觉
2024-09-10
990
TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!
虽然不同尺度的特征在视觉输入中具有感知重要性,但现有的视觉Transformer尚未显式利用这些特征。为此,我们首先提出了一种跨尺度视觉Transformer,即CrossFormer。它引入了跨尺度嵌入层(CEL)和长短距离注意力(LSDA)。一方面,CEL将每个标记与不同尺度的多个补丁混合,为自注意力模块本身提供跨尺度特征。另一方面,LSDA将自注意力模块分为短距离和长距离部分,这不仅减少了计算负担,还保留了标记中的小尺度和大尺度特征。此外,通过对CrossFormer的实验,我们观察到影响视觉Transformer性能的另外两个问题,即自注意力图的扩展和幅度爆炸。因此,我们进一步提出了渐进组大小(PGS)范式和幅度冷却层(ACL)来分别缓解这两个问题。结合PGS和ACL的CrossFormer称为CrossFormer++。大量实验表明,CrossFormer++在图像分类、目标检测、实例分割和语义分割任务上均优于其他视觉Transformer。
小白学视觉
2024-08-30
2190
机器学习模型的可解释性算法汇总!
目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因为如果我们无法知道某个算法是如何进行预测,那么我们将很难将其前一道其它的问题中,很难进行算法的debug。
小白学视觉
2024-08-27
990
YOLO 的“数学”实现
YOLO(You Only Look Once)是一个标志性的目标检测模型,可以快速分类并定位图像中的多个对象。本文总结了YOLO模型中所有关键的数学操作。
小白学视觉
2024-07-29
920
“卷积”的形象理解
在泛函分析中,卷积、旋积或摺积(英语:Convolution)是通过两个函数f和g 生成第三个函数的一种数学算子,表征函数f与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
小白学视觉
2024-07-29
1250
顶刊 IJCV | 时空鲁棒跟踪器:搭载空间-通道Transformer与抖动抑制机制
Jiqing Zhang, Bo Dong, Yingkai Fu, Yuanchen Wang, Xiaopeng Wei, Baocai Yin, Xin Yang
小白学视觉
2024-07-29
1160
为什么建议大家使用 Linux 开发?真的很很很优雅!
编者荐语 Linux 开发不算简单,要求同学们掌握的知识广且复杂,有一定难度。但是同学们只要静下心来,一步一步循序渐进的学习,一定可以掌握的,并且掌握后会越用越省心。 链接丨cnblogs.com/summertime-wu/p/11140052.html
小白学视觉
2024-07-17
1250
理解如何处理计算机视觉和深度学习中的图像数据
在过去几年从事多个计算机视觉和深度学习项目之后,我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度学习模型更好。有时,甚至可能不需要深度学习模型,经过一些处理后一个简单的分类器可能就足够了。
小白学视觉
2024-07-17
1020
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档