嵌入式目标检测--Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection

Fast YOLO: A Fast You Only Look Once System for Real-time Embedded Object Detection in Video https://arxiv.org/abs/1709.05943

针对在嵌入式设备使用CNN进行目标检测,本文对 YOLOv2进行改进,在稍微降低精度的情况下,减少模型的参数量,提高运算速度。在视频处理中,相对 YOLOv2 平均加速 ∼3.3X, run an average of ∼18FPS on a Nvidia Jetson TX1 embedded system

2 Methodology Fast YOLO framework 主要包括两个部分:1) optimized YOLOv2 architecture,2)motion-adaptive inference

2.1 Optimized Network Architecture CNN网络最优结构设计是一个难题,这个过程通常是一个专家在针对特征任务中的 约束( accuracy and the number of parameters)尝试各种网络结构寻找最佳网络设计。当前寻找最优网络结构通常是当做一个 hyper-parameter optimization problem, 但是这个优化问题的解决 very time-consuming,大多数方法要么计数不可控,要么得到的解不是最优的。例如 在超参数优化中常用的一个方法是 grid search,在大范围内尝试各种不同 network configurations ,将最好的 configuration 作为最终的网络结构。但是用于目标检测的CNN网络通常有很多参数,grid search 这种方法就不是 computationally tractable。

这里我们换个角度看问题,从 improving network efficiency 这个方向,我们参考 evolutionary deep intelligence framework [16, 17, 18],用它来优化 YOLOv2 得到一个 optimized network architecture O-YOLOv2, 这个新的网络 比原来的 YOLOv2 参数减少 ∼2.8X

2.2 Motion-adaptive Inference

因为在视频里存在大量信息冗余,所以不是所有的视频帧都含有 unique 信息,所以不用对每一帧进行 deep inference,这里我们引入一种 基于运动信息的自适应 inference,we introduce a motion-adaptive inference approach to determine if deep inference is needed for a particular video frame

3 Results & Discussion

Pascal VOC dataset

running on a Nvidia Jetson TX1 embedded system

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

模仿人类智慧——“多任务学习”动手实践

703
来自专栏崔庆才的专栏

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

翻译:于之涵 编辑:Leo 出品:AI科技大本营 (公众号ID:rgznai100)

935
来自专栏生信技能树

比较不同单细胞转录组数据寻找features方法

挑选到的跟feature相关的基因集,有点类似于在某些组间差异表达的基因集,都需要后续功能注释。 背景介绍 单细胞转录组测序的确可以一次性对所有细胞都检测到上千...

4419
来自专栏腾讯高校合作

【犀牛鸟论道】深度哈希方法及其在移动视觉搜索中的应用

1. 简介 移动视觉搜索技术是多媒体搜索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上图像和视频等视觉内容的产生,以及人们检索和观看的方式...

35610
来自专栏机器之心

学界 | DeepMind等机构提出「图网络」:面向关系推理

该论文作者之一,DeepMind 研究科学家 Oriol Vinyals 表示,该研究的代码也将在近期公开。

1080
来自专栏ATYUN订阅号

【技术】使用Tensorflow对象检测接口进行像素级分类

AiTechYun 编辑:yuxiangyu 在过去,我们使用Tensorflow对象检测API来实现对象检测,它的输出是图像中我们想要检测的不同对象周围的边界...

3514
来自专栏AI科技大本营的专栏

超越ImageNet?李飞飞力赞高徒的视频描述研究入选计算机视觉最前沿的十大论文

论文作者:Ranjay Krishna, Kenji Hata,Frederic Ren, Li Fei-Fei, Juan Carlos Niebles S...

38111
来自专栏AI科技大本营的专栏

AI技术讲座精选:神经结构搜索和强化学习

摘 要 神经网络模型不仅功能强大,而且特别灵活,在许多困难的学习任务中均发挥着良好的作用,如图像、声音和自然语言的理解等。尽管神经网络获得了一系列的成功,但是...

30911
来自专栏人工智能头条

深度学习和自然语言处理中的Attention和Memory机制

2295
来自专栏机器之心

学界 | 老论文没有源码?14年神经图灵机的复现被接收为大会论文

项目地址:https://github.com/MarkPKCollier/NeuralTuringMachine

902

扫码关注云+社区