专栏首页相约机器人视频架构搜索

视频架构搜索

Video 机器人技术研究人员Michael S. Ryoo和学生研究员AJ Piergiovanni发布。了解视频是一个具有挑战性的问题。由于视频包含时空数据,因此需要使用其特征表示来抽象外观和运动信息。这不仅对于自动理解视频的语义内容(例如网络视频分类或体育活动识别)必不可少,而且对于机器人的感知和学习也至关重要。就像人类一样,来自机器人摄像机的输入很少是世界的静态快照,而是采用连续视频的形式。

当今的深度学习模型的能力在很大程度上取决于其神经体系结构。卷积神经网络视频(CNN)通常是通过将已知的2D架构(例如Inception和ResNet)手动扩展到3D来构建的,或者是通过精心设计将外观和运动信息融合在一起的两流CNN架构来构建的。然而,设计最佳视频架构以最佳利用视频中的时空信息仍然是一个未解决的问题。尽管已经广泛探索了神经体系结构搜索(例如Zoph等人,Real等人)以发现良好的体系结构以获取图像,尚未开发针对视频的机器优化神经体系结构。视频CNN通常需要大量的计算和内存,因此设计一种在捕获其独特属性的同时进行有效搜索的方法非常困难。

为了应对这些挑战,对自动搜索进行了一系列研究,以寻求更理想的网络架构来进行视频理解。展示了三种不同的神经体系结构演化算法:学习层及其模块配置(EvaNet);学习多流连接(AssembleNet);并构建计算效率高且紧凑的网络(TinyVideoNet)。开发的视频架构在多个公共数据集上的性能明显优于现有的手工制作模型,并证明网络运行时间可提高10倍至100倍。

EvaNet:第一个演进的视频体系结构

EvaNet是在ICCV 2019的 “ 视频时空神经结构的演进 ”中引入的,它是设计神经结构搜索视频体系结构的首次尝试。EvaNet是模块级别的体系结构搜索,着重于查找时空卷积层的类型以及它们的最佳顺序或并行配置。一种进化算法带有变异运算符的变量用于搜索,迭代更新一系列体系结构。这允许并行且更有效地探索搜索空间,这对于视频体系结构搜索必须考虑各种时空层及其组合。EvaNet演化了多个模块(在网络中的不同位置)以生成不同的体系结构。

https://arxiv.org/abs/1811.10636

实验结果证实了通过演化异构模块而获得的此类视频CNN架构的好处。该方法通常会发现,由多个并行层组成的非平凡模块效率最高,因为它们比手工设计的模块更快并且表现出更好的性能。另一个有趣的方面是,由于不断发展,获得了许多性能相似但性能各异的体系结构,而无需进行额外的计算。与它们形成合奏可进一步提高性能。由于它们的并行性质,即使是整体模型也比其他标准视频网络(例如(2 + 1)D ResNet )在计算上更加高效。已经开源了代码。

https://arxiv.org/abs/1711.11248

https://github.com/google-research/google-research/tree/master/evanet

各种EvaNet架构的示例。每个彩色框(大或小)代表一个图层,框的颜色指示其类型:3D转换。(蓝色),(2 + 1)D转换。(橙色),iTGM(绿色),最大合并(灰色),平均(紫色)和1x1转换。(粉)。通常将图层分组以形成模块(大盒子)。每个框中的数字表示过滤器的尺寸。

AssembleNet:构建更强大,更好的(多流)模型

在“AssembleNet:在视频体系结构中搜索多流神经连接”中,研究了一种融合具有不同输入方式(例如RGB和光学)的不同子网的新方法。流量)和时间分辨率。AssembleNet是可学习体系结构的“家族”,提供了一种通用方法来学习跨输入模态的特征表示之间的“连通性”,同时针对目标任务进行了优化。介绍了一种通用格式,该格式允许将多种形式的多流CNN表示为有向图,再加上有效的进化算法来探索高级网络连接。目的是通过视频中的外观和运动视觉线索学习更好的特征表示。与之前使用后期融合或固定中间融合的手工设计的两流模型不同,AssembleNet在连接权重学习指导其变异的同时,进化出了过度连接的多流多分辨率架构。正在首次研究具有各种中间连接的四流体系结构-每个RGB和光流2个流,每个流具有不同的时间分辨率。

https://arxiv.org/abs/1905.13209

https://arxiv.org/abs/1406.2199

https://arxiv.org/pdf/1905.13209.pdf

下图显示了一个AssembleNet架构的示例,该示例是通过对50到150轮回合中的随机初始多流架构进行演变而发现的。在两个非常流行的视频识别数据集上测试了AssembleNet:Charades和Moments-in-Time(MiT)。它在MiT上的表现是34%以上的第一位。Charades的性能更是令人印象深刻,平均平均精度(mAP)为58.6%,而之前最著名的结果是42.5和45.2。

代表性的AssembleNet模型是使用Moments-in-Time数据集演化而来的。一个节点对应于一个时空卷积层块,每个边指定它们的连通性。较暗的边缘表示更牢固的连接。AssembleNet是一系列可学习的多流体系结构,已针对目标任务进行了优化。

该图在Charades(左)和Moments-in-Time(右)数据集中比较了AssembleNet和最新的手工设计模型。AssembleNet-50或AssembleNet-101具有与两流ResNet-50或ResNet-101相同数量的参数。

微小的视频网络:最快的视频理解网络

为了使视频CNN模型对在现实环境中运行的设备(如机器人所需的设备)有用,必须进行实时,高效的计算。但是,要在视频识别任务上获得最新的结果,目前需要非常大的网络,通常具有数十到数百个卷积层,并应用于许多输入帧。结果,这些网络的运行时间通常很慢,在当代GPU上每1秒视频片段至少需要500+ ms以上的时间,在CPU上至少需要2000+ ms。在微小的视频网络中,通过自动设计可以以相当低的计算成本提供可比性能的网络来解决此问题。Tiny Video Networks(TinyVideoNets)达到了竞争性的准确性,并且在每1秒钟的视频剪辑中,在CPU上运行37至100 ms,在GPU上运行10 ms时,可以实时或更高的速度高效运行,速度比以前快数百倍其他人为设计的当代模型。

https://arxiv.org/abs/1910.06961

通过在架构演进过程中明确考虑模型运行时间并强制算法探索搜索空间,同时包括空间或时间分辨率以及通道大小以减少计算量,可以实现这些性能提升。下图说明了TinyVideoNet发现的两种简单但非常有效的体系结构。有趣的是,学习的模型体系结构比典型的视频体系结构具有更少的卷积层:Tiny Video Networks更喜欢轻量级的元素,例如2D池,门控层和挤压激励层。此外,TinyVideoNet能够共同优化参数和运行时间,以提供可用于未来网络探索的高效网络。

TinyVideoNet(TVN)架构经过发展,可以最大限度地提高识别性能,同时将计算时间保持在所需的限制之内。例如,TVN-1(顶部)在CPU上运行37毫秒,在GPU上运行10毫秒。TVN-2(底部)在CPU上运行65毫秒,在GPU上运行13毫秒。

与之前的模型相比,TinyVideoNet模型的CPU运行时间(左)与(2 + 1)D ResNet模型(右)相比,TinyVideoNets的运行时间与模型精度之间的关系。请注意,TinyVideoNets占据了该时间精度空间的一部分,而其他模型则不存在,即极快,但仍很准确。

结束语

这是有关神经体系结构搜索以了解视频的第一项工作。使用新的进化算法生成的视频架构在相当大的程度上优于公共数据集上最著名的人工设计的CNN架构。还表明,随着架构的发展,学习计算效率高的视频模型TinyVideoNets是可能的。这项研究开辟了新的方向,并展示了机器进化的CNN用于视频理解的前景。

致谢

这项研究是由Michael S. Ryoo,AJ Piergiovanni和Anelia Angelova进行的。Alex Toshev和Tan Mingxing也为这项工作做出了贡献。感谢Vincent Vanhoucke,Juhana Kangaspunta,Esteban Real,Ping Yu,Sarah Sirajuddin和Google团队的机器人技术小组的讨论和支持。

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Transformer各层网络结构详解!面试必备!(附代码实现)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    mantch
  • 从6万用户评论中,他们选出了23门全世界最好的CS免费课

    全世界范围内,有大概1000所大学发布了超过13000门免费公开课了,而且数量每年都会增长。

    量子位
  • 2D-Driven 3D Object Detection in RGB-D Images

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    于小勇
  • 5G、人工智能、语音技术……2020值得关注的六大技术趋势

    5G作为更高、更快、更强的通信协议,人工智能与高级分析技术对海量数据进行分析,区块链为数字资产交换保驾护航,语音技术打破各种人机交互界面的界限,自动化完全改变我...

    华章科技
  • 10 大 CNN 核心模型完全解析(附源代码,已全部跑通)

    LeNet虽然不是CNN的起点,但却是后来CNN兴起的标志模型。LeNet-5是1998年YannLeCun设计用于手写数字识别的模型。

    Datawhale
  • 【论文笔记】基于LSTM的问答对排序

    【导读】本篇论文使用时间门同步学习文本对之间的语义特征,在 Quasi Recurrent Neural Network (QRNN) 模型的基础上进行创新,提...

    zenRRan
  • 【论文笔记】命名实体识别论文

    其实实体识别这块看了挺久了的,今天就来好好聊一聊它。实体识别(Name Entity Recognition)是属于NLP任务中的序列标注问题:给定一个输入句子...

    zenRRan
  • NLP技术路线详解:这是从数学到算法的艺术

    自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求我们根据对数据的理解定制一...

    Datawhale
  • BERT预训练模型的演进过程!(附代码)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    mantch
  • 数据挖掘工程师必备的技能有哪些?

    R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…

    加米谷大数据

扫码关注云+社区

领取腾讯云代金券