首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

深度学习——目标检测(3)YOLO1SSD

前言:RCNN系列一般都是分为两个步骤,下面介绍one-stage方法,SSD和yolo算法 目标检测近年来已经取得了很重要的进展,主流的算法主要分为两个类型: (1)two-stage方法,如R-CNN系算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,two-stage方法的优势是准确度高; (2)one-stage方法,如Yolo和SSD,其主要思路是均匀地在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类与回归,整个过程只需要一步,所以其优势是速度快,但是均匀的密集采样的一个重要缺点是训练比较困难,这主要是因为正样本与负样本(背景)极其不均衡(参见Focal Loss),导致模型准确度稍低。 各种方法速度如下:

01

从零开始学keras(八)

想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络。预训练网络(pretrained network)是一个保存好的网络,之前已在大型数据集(通常是大规模图像分类任务)上训练好。如果这个原始数据集足够大且足够通用,那么预训练网络学到的特征的空间层次结构可以有效地作为视觉世界的通用模型,因此这些特征可用于各种不同的计算机视觉问题,即使这些新问题涉及的类别和原始任务完全不同。举个例子,你在 ImageNet 上训练了一个网络(其类别主要是动物和日常用品),然后将这个训练好的网络应用于某个不相干的任务,比如在图像中识别家具。这种学到的特征在不同问题之间的可移植性,是深度学习与许多早期浅层学习方法相比的重要优势,它使得深度学习对小数据问题非常有效。

01

BIB | APPTEST:深度学习方法与传统的NMR结构测定方法相结合,预测肽的三级结构

今天给大家介绍都柏林大学的Patrick Brendan Timmons 和Chandralal M. Hewage在Briefings in Bioinformatics上发表的文章“APPTEST is a novel protocol for the automatic prediction of peptide tertiary structures”充分了解肽的三级结构对于理解其功能及其与生物靶点的相互作用很重要。作者在文章中报告了一种新的算法APPTEST,它采用神经网络结构和模拟退火方法从一级序列预测肽的三级结构。APPTEST适用于5-40个天然氨基酸的线性肽和环状肽,并且它计算效率很高,可以在几分钟内返回预测的结构。作者团队对一组356个测试肽上进行了附加性能评估;每个肽的最佳结构偏离实验确定的主干构象平均为1.9 Å,97%的目标序列预测为天然或接近天然结构。在短、长和循环肽的基准数据集中,与PEP-FOLD、PEPStRMOD和PepLook的性能比较表明,APPTEST产生的结构平均比现有方法更符合原生结构。

01

稀疏&集成的卷积神经网络学习

今天主要和大家说的是分类检测过程中,一些稀疏和集成学习的相关知识,首先和大家说下图像目标定位与检测的方法分类。 众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载

05

综述总结:稀疏&集成的卷积神经网络学习

众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃发展。人们认识世界的重要知识来源就是图像信息,在很多场合,图像所传送的信息比其他形式的信息更丰富、真切和具体。人眼与大脑的协作使得人们可以获取、处理以及理解视觉信息,人类利用视觉感知外界环境信息的效率很高。事实上,据一些国外学者所做的统计,人类所获得外界信息有80%左右是来自眼睛摄取的图像。由此可见,视觉作为人类获取外界信息的主要载体,计算机要实现智能化,就必须能够处理图像信息。尤其是近年来,以图形、图像、视频等大容量为特征的图像数据处理广泛应用于医学、交通、工业自动化等领域。

02

Stereo R-CNN based 3D Object Detection for Autonomous Driving

提出了一种充分利用立体图像中稀疏、密集、语义和几何信息的自主驾驶三维目标检测方法。我们的方法,称为Stereo R-CNN,扩展了Faster R-CNN的立体输入,以同时检测和关联目标的左右图像。我们在立体区域建议网络(RPN)之后添加额外的分支来预测稀疏的关键点、视点和目标维数,并结合二维左右框来计算粗略的三维目标边界框。然后,我们恢复准确的三维包围框,以区域为基础的光度比对使用左和右ROI。我们的方法不需要深度输入和三维位置监督,但是,优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,我们的方法在三维检测和三维定位任务上都比目前最先进的基于立体的方法高出30%左右的AP。

02

ECCV 2022 | VisDB:基于学习的密集人体鲁棒估计

从单目图像估计 3D 人体姿势和形状是动作重定向、虚拟化身和人类动作识别等各种应用的关键任务。这是一个具有根本挑战性的问题,因为深度模糊和人类外表的复杂性会随着关节、衣服、照明、视角和遮挡而变化。为了通过紧凑的参数表示复杂的 3D 人体,诸如 SMPL 之类的基于模型的方法已在社区中得到广泛使用。然而,SMPL 参数以整体方式表示人体,导致通过直接它们的参数无法灵活适应真实世界图像。更重要的是,当人体在图像中不完全可见时,基于回归的方法往往会失败,例如,被遮挡或在框架外。在这项工作中,作者的目标是学习与输入图像并且对部分身体情况具有鲁棒性的人体估计。

02
领券