算法该如何分辨这只狗可能属于哪个品种?当然小伙伴们可以训练自己的卷积神经网络来对这张图片进行分类,但是通常情况下我们既没有GPU的计算能力,也没有时间去训练自己的神经网络。但是,全世界的各个研究团队(例如牛津,谷歌,微软)都拥有足够的计算能力,时间和金钱,而且以前可能已经解决过一些类似的问题。我们该如何利用他们已经完成的工作呢?现在来让我们了解一个重要的概念——转移学习。
空中图像中的物体检测已成为一个动态且关键的研究领域,主要关注通过空中平台(如卫星、无人机或飞机)捕获的高分辨率图像中物体的识别和定位。这种技术在众多领域得到应用,包括但不限于城市规划,精确农业,灾害管理,以及军事监视。
过去两年的大部分时间,我几乎都在深度学习领域工作。这是一个相当好的经历,这中间我参与了图像和视频数据相关的多个项目。
随着样本制备技术和显微成像技术的快速发展,细胞图像的定量处理和分析在医学和细胞生物学等领域中发挥着重要作用。基于卷积神经网络(CNN),通过神经网络训练可以学习不同细胞图像的特征信息,具有较强的泛化性能。两阶段R-CNN系列及其一阶段变体是经典的基于CNN的实例分割任务框架。
这张图清楚说明了image classification, object detection, semantic segmentation, instance segmentation之间的关系. 摘自COCO dataset (https://arxiv.org/pdf/1405.0312.pdf)
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四)FCOS:用图像分割处理目标检测
在安全关键的实时应用中部署深度神经模型具有挑战性,特别是在资源有限的设备上,如自动驾驶汽车或虚拟/增强现实头戴式设备。这主要是由于巨大的计算复杂性和庞大的内存/存储需求。一种有效的策略是通过知识蒸馏来训练轻量级架构,该策略能够将大模型中学到的信息压缩到小模型中。
翻译自博客:IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW 原博文:http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ github:https://github.com/dennybritz/cnn-text-classification-tf 在这篇文章中,我们将实现一个类似于Kim Yoon的卷积神经网络语句分类
包括8351张狗图像,分为训练(6680)、验证(835)和测试(836)数据集,以及13233 张人脸。
近年来,自动驾驶汽车不断走进我们的视野中,面向自动驾驶的目标检测算法也成为了国内外的研究热点之一。安全可靠的自动驾驶汽车依赖于对周围环境的准确感知,以便及时做出正确的决策。目标检测是自动驾驶系统的关键任务之一,其主要的功能是检测前方道路上出现的目标的空间位置和目标类别。
我们提出了基于区域的全卷积网络,用于精确和有效的目标检测。与之前的基于区域的检测器(如Fast/Faster R-CNN)相比,我们的基于区域的检测器是全卷积的,几乎所有计算都在整个图像上共享。为了实现这一目标,我们提出了位置敏感的分数映射来解决图像分类中的平移不变性与目标检测中的平移方差之间的矛盾。因此,我们的方法可以很自然地采用完全卷积的图像分类器骨干网络,如最新的残差网络(ResNets),用于目标检测。我们使用101层ResNet在PASCAL VOC数据集上显示了很有竞争的结果(例如,在2007年的集上显示了83.6%的mAP)。同时,我们的结果在测试时的速度为每张图像170ms,比Faster R-CNN对应图像快2.5-20倍。
受Transformer模型在自然语言处理(NLP)应用中的成功启发,A.Dosovitskiy、Dosovitski等人介绍了用于计算机视觉(CV)应用的视觉Transformer(ViT)。视觉Transformer模型在ImageNet数据集上显示出77.9%至81.3%的Top-1准确率,并已用于许多下游图像识别任务,如分类、目标检测和分割。
您只需看一次(YOLO)是快速、准确的单阶段目标检测器。最近发布的YOLO v4与其他目标检测器相比,显示出非常好的结果。
深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片,现有的神经网络主要在空间域中操作,具有固定的输入尺寸。然而在实际应用中,图像通常很大,必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽,但它会无意识地移除冗余和非冗余信息,导致准确性下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,并提出了一种可学习的频率选择方法,可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中,我们的模型采用与经典神经网络(如ResNet-50、MobileNetV2和Mask R-CNN)相同的结构,但接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态通道选择的频域学习方法可以实现更高的准确性,同时能够减少输入数据的大小。具体而言,在相同的输入尺寸下,所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时,所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外,我们观察到在COCO数据集上的分割任务中,Mask R-CNN的平均精度提高了0.8%。
大规模的目标检测数据集(例如MS-COCO)在进行Ground Truth框标注时仍然存在歧义。这篇论文提出了新的边界框回归损失针对目标框的移动以及位置方差进行学习,这种方法在几乎不增加计算量的基础上提高不同结构定位的准确性。另一个关键点是,由于学习了bounding box的分布,可以将其应用在NMS阶段合并相邻目标框,进一步提升定位的准确性。代码已开源。
自注意力模块是Transformer的基本构建块,用于捕捉全局信息。受到Transformer在自然语言处理(NLP)任务上的成功启发,研究人员将自注意力模块引入了计算机视觉。他们用自注意力模块替代了卷积神经网络(CNNs)中的卷积层,将这些网络称为视觉Transformer。视觉Transformer在许多计算机视觉任务上与CNNs相媲美,有巨大的潜力用于各种应用。
近年来,目标检测技术取得了显著的进展,使得可以实现对解剖结构、病变或异常的自动识别和定位。多年来,目标检测方法取得了重大的进步,这是由于大规模的带有标注的数据集的出现和深度学习技术的开发所驱动的。这些技术在改善医疗诊断和治疗结果方面展示出巨大的潜力。
本文提出了一种用于目标检测的单阶段方法,通过单个CNN模型同时完成目标定位和分类,从而实现了速度与精度的平衡。该方法在速度和精度上都超越了目前最先进的双阶段方法,同时还在处理小目标、重叠目标、密集目标等复杂场景上表现出色。
美国证券交易委员会(SEC)的文件长期以来一直被用作出投资决策的宝贵信息来源。一些论文和项目已经演示了如何使用自然语言处理技术从SEC文件和新闻中提取信息,以预测股票波动。本文在其他工作的基础上,通过使用GloVE嵌入技术、MLP、CNN和RNN深度学习体系结构,预测8-K文件发布后的股票价格变化。
Jim James, Nathan Pruyne, Tiberiu Stan, Marcus Schwarting, Jiwon Yeom, Seungbum Hong, Peter Voorhees, Ben Blaiszik, Ian Foster
https://github.com/Apoorvajasti/Distracted-Driver-Detection
【导读】2020 年的三月春招要来了,现在想要 Get 一个算法工程师的实习或全职机会,已经不是一件易事了。如果现在着手复习,茫茫题海不能毫无重点,我们要先抓住那些刚需必备的面试题。这次,作者收集了 12 个 AI 工程师职位的面试问题,助你攻下你心仪的 offer。
林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行语音交互时起到重要作用。 △ 关键词识别
本文中将简单总结YOLO的发展历史,YOLO是计算机视觉领域中著名的模型之一,与其他的分类方法,例如R-CNN不同,R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)不同,YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only Look Once。
来源:DeepHub IMBA 本文约3400字,建议阅读6分钟 本文为你简单总结YOLO的发展历史。 本文中将简单总结YOLO的发展历史,YOLO是计算机视觉领域中著名的模型之一,与其他的分类方法,例如R-CNN不同,R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)不同,YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only Look Once。 目标检测 我们人类只需要看一眼
深度学习方法是一种利用神经网络模型进行高级模式识别和自动特征提取的机器学习方法,近年来在时序预测领域取得了很好的成果。常用的深度学习模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)、注意力机制(Attention)和混合模型(Mix )等,与机器学习需要经过复杂的特征工程相比,这些模型通常只需要经数据预处理、网络结构设计和超参数调整等,即可端到端输出时序预测结果。深度学习算法能够自动学习时间序列数据中的模式和趋势,神经网络涉及隐藏层数、神经元数、学习率和激活函数等重要参数,对于复杂的非线性模式,深度学习模型有很好的表达能力。在应用深度学习方法进行时序预测时,需要考虑数据的平稳性和周期性,选择合适的模型和参数,进行训练和测试,并进行模型的调优和验证。来源:轮回路上打碟的小年轻(侵删)
在进入神经网络世界之前,让我们先谈一谈指纹?众所周知,没有两个人具有相同的指纹,但是我们可以建立一个CNN模型来从指纹图像中预测性别吗?让我们看看……
YOLO再一次突破,新变体YOLO-World在目标检测领域的表现非常的出色。开集检测速度提升20倍!
提出了一种用于快速多尺度目标检测的统一深度神经网络,即多尺度CNN (MS-CNN)。MS-CNN由建议子网络和检测子网络组成。在建议子网中,在多个输出层进行检测,使感受野匹配不同尺度的对象。这些互补的尺度特异性探测器被结合起来产生一个强大的多尺度目标探测器。通过优化多任务损失,实现了统一网络的端到端学习。此外,还探讨了反卷积特征上采样作为输入上采样的一种替代方法,以减少内存和计算成本。最先进的目标检测性能,高达15帧每秒,是报告的数据集,如KITTI和Caltech,包含大量的小目标。
癌症是人类主要的死亡原因之一,仅次于心脏病[A]。美国2017年近60万人死于癌症。乳腺癌在癌症排行榜中排名第二,也是女性最常见的疾病。组织学检查通常是患者癌症治疗过程中的转折点。如果常规的乳房X射线检测到异常肿块,则将进行活检以便进一步确诊。但是,复查和评估活检玻片所需的时间很长,可能会给患者带来巨大的压力。一种能够识别癌组织并减少误诊率的有效算法可使患者更早开始治疗并改善患者预后效果。
视觉 Transformer (ViTs)在视觉识别任务上近期取得了显著的成功。这种成功不仅归因于它们的自注意力表示,也归功于新开发的训练配置。例如,在训练技术方面的改进,如强大的数据增强和知识蒸馏,大大缓解了ViTs的耗数据问题,使其对于在ImageNet-1K上的训练更加可行。
选自MiniMaxir 作者:Max Woolf 机器之心编译 参与:Jane W、吴攀 Keras 是由 François Chollet 维护的深度学习高级开源框架,它的底层基于构建生产级质量的深度学习模型所需的大量设置和矩阵代数。Keras API 的底层基于像 Theano 或谷歌的 TensorFlow 的较低级的深度学习框架。Keras 可以通过设置 flag 自由切换后端(backend)引擎 Theano/TensorFlow;而不需要更改前端代码。 虽然谷歌的 TensorFlow 已广受
【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回归生成模型, 揭开神经网络中损失函数的神秘面纱》,每篇都有干货,值得大家收藏阅读。 ▌1. Tomas Mikolov新作:高质量的词向量表示 ---- 题目: Advances in Pre-Training Distributed Word Representations 作者:Tomas Mikolov, Edouard Grave, Piot
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
目标检测是计算机视觉中一个长期存在的挑战,其目标是在图像库中空间上定位和分类目标框。在过去的十年中,由于检测管道各个阶段的许多进步,目标检测取得了惊人的进展。目标检测Backbone的演变,从R-CNN的基础性转变到Faster R-CNN,以及改变范式的YOLO架构,再到最近将Transformer网络集成进来,代表了在增强特征提取和检测能力方面取得的重要进展。
这篇文章有4篇论文速递信息,涉及单目图像深度估计、6-DoF跟踪、图像合成和动作捕捉等方向(含1篇CVPR 2018论文和1篇ICRA 2018论文)。
Factorizer: A scalable interpretable approach to context modeling for medical image segmentation
在统计学和机器学习中,组合使用多种学习算法往往比单独的任何的学习算法更能获得好的预测性能。与统计力学中的统计集成不同(通常是无穷大),机器学习的集成由具体的有限的替代模型集合构成,但通常在这些备选方案中存在更灵活的结构。 使用集成主要是为了找到一个不一定包含在它所建立的模型的假设空间内的假设。从经验来看,当模型之间存在差异显著时,集成通常会产生更好的结果。 动机 如果你看过一些大型机器学习竞赛的结果,你很可能会发现,最好的结果是往往是由集成模型取得而不是由单一模型来实现。例如,ILSVRC2015(201
交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,尤其是多尺度目标检测和检测的实时性问题。在交通标志检测过程中,目标的规模变化很大,会对检测精度产生一定的影响。特征金字塔是解决这一问题的常用方法,但它可能会破坏交通标志在不同尺度上的特征一致性。而且,在实际应用中,普通方法难以在保证实时检测的同时提高多尺度交通标志的检测精度。 本文提出了一种改进的特征金字塔模型AF-FPN,该模型利用自适应注意模块(adaptive attention module, AAM)和特征增强模块(feature enhancement module, FEM)来减少特征图生成过程中的信息丢失,进而提高特征金字塔的表示能力。将YOLOv5中原有的特征金字塔网络替换为AF-FPN,在保证实时检测的前提下,提高了YOLOv5网络对多尺度目标的检测性能。 此外,提出了一种新的自动学习数据增强方法,以丰富数据集,提高模型的鲁棒性,使其更适合于实际场景。在100K (TT100K)数据集上的大量实验结果表明,与几种先进方法相比,本文方法的有效性和优越性得到了验证。
【导读】专知内容组整理出最近arXiv放出的五篇论文,包括《Tomas Mikolov新作词向量表示,CNN Is All You Need,强化学习库, 自回归生成模型, 揭开神经网络中损失函数的神秘面纱》,每篇都有干货,值得大家收藏阅读。 ▌1.Tomas Mikolov新作:高质量的词向量表示 题目:Advances in Pre-Training Distributed Word Representations 作者:Tomas Mikolov, Edouard Grave, Piotr Bojan
《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》,该论文由CV领域大牛RGB和何凯明于2016年发表,此篇论文堪称经典论文之一。
最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。
本文中的所有代码都在GitHub Repository上。数据集已经在适当的文件夹中,并且代码可以运行(在安装PyTorch之后)。
领取专属 10元无门槛券
手把手带您无忧上云