首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >视频架构搜索

视频架构搜索

作者头像
代码医生工作室
发布2019-10-23 20:24:04
7860
发布2019-10-23 20:24:04
举报
文章被收录于专栏:相约机器人相约机器人

Video 机器人技术研究人员Michael S. Ryoo和学生研究员AJ Piergiovanni发布。了解视频是一个具有挑战性的问题。由于视频包含时空数据,因此需要使用其特征表示来抽象外观和运动信息。这不仅对于自动理解视频的语义内容(例如网络视频分类或体育活动识别)必不可少,而且对于机器人的感知和学习也至关重要。就像人类一样,来自机器人摄像机的输入很少是世界的静态快照,而是采用连续视频的形式。

当今的深度学习模型的能力在很大程度上取决于其神经体系结构。卷积神经网络视频(CNN)通常是通过将已知的2D架构(例如Inception和ResNet)手动扩展到3D来构建的,或者是通过精心设计将外观和运动信息融合在一起的两流CNN架构来构建的。然而,设计最佳视频架构以最佳利用视频中的时空信息仍然是一个未解决的问题。尽管已经广泛探索了神经体系结构搜索(例如Zoph等人,Real等人)以发现良好的体系结构以获取图像,尚未开发针对视频的机器优化神经体系结构。视频CNN通常需要大量的计算和内存,因此设计一种在捕获其独特属性的同时进行有效搜索的方法非常困难。

为了应对这些挑战,对自动搜索进行了一系列研究,以寻求更理想的网络架构来进行视频理解。展示了三种不同的神经体系结构演化算法:学习层及其模块配置(EvaNet);学习多流连接(AssembleNet);并构建计算效率高且紧凑的网络(TinyVideoNet)。开发的视频架构在多个公共数据集上的性能明显优于现有的手工制作模型,并证明网络运行时间可提高10倍至100倍。

EvaNet:第一个演进的视频体系结构

EvaNet是在ICCV 2019的 “ 视频时空神经结构的演进 ”中引入的,它是设计神经结构搜索视频体系结构的首次尝试。EvaNet是模块级别的体系结构搜索,着重于查找时空卷积层的类型以及它们的最佳顺序或并行配置。一种进化算法带有变异运算符的变量用于搜索,迭代更新一系列体系结构。这允许并行且更有效地探索搜索空间,这对于视频体系结构搜索必须考虑各种时空层及其组合。EvaNet演化了多个模块(在网络中的不同位置)以生成不同的体系结构。

https://arxiv.org/abs/1811.10636

实验结果证实了通过演化异构模块而获得的此类视频CNN架构的好处。该方法通常会发现,由多个并行层组成的非平凡模块效率最高,因为它们比手工设计的模块更快并且表现出更好的性能。另一个有趣的方面是,由于不断发展,获得了许多性能相似但性能各异的体系结构,而无需进行额外的计算。与它们形成合奏可进一步提高性能。由于它们的并行性质,即使是整体模型也比其他标准视频网络(例如(2 + 1)D ResNet )在计算上更加高效。已经开源了代码。

https://arxiv.org/abs/1711.11248

https://github.com/google-research/google-research/tree/master/evanet

各种EvaNet架构的示例。每个彩色框(大或小)代表一个图层,框的颜色指示其类型:3D转换。(蓝色),(2 + 1)D转换。(橙色),iTGM(绿色),最大合并(灰色),平均(紫色)和1x1转换。(粉)。通常将图层分组以形成模块(大盒子)。每个框中的数字表示过滤器的尺寸。

AssembleNet:构建更强大,更好的(多流)模型

在“AssembleNet:在视频体系结构中搜索多流神经连接”中,研究了一种融合具有不同输入方式(例如RGB和光学)的不同子网的新方法。流量)和时间分辨率。AssembleNet是可学习体系结构的“家族”,提供了一种通用方法来学习跨输入模态的特征表示之间的“连通性”,同时针对目标任务进行了优化。介绍了一种通用格式,该格式允许将多种形式的多流CNN表示为有向图,再加上有效的进化算法来探索高级网络连接。目的是通过视频中的外观和运动视觉线索学习更好的特征表示。与之前使用后期融合或固定中间融合的手工设计的两流模型不同,AssembleNet在连接权重学习指导其变异的同时,进化出了过度连接的多流多分辨率架构。正在首次研究具有各种中间连接的四流体系结构-每个RGB和光流2个流,每个流具有不同的时间分辨率。

https://arxiv.org/abs/1905.13209

https://arxiv.org/abs/1406.2199

https://arxiv.org/pdf/1905.13209.pdf

下图显示了一个AssembleNet架构的示例,该示例是通过对50到150轮回合中的随机初始多流架构进行演变而发现的。在两个非常流行的视频识别数据集上测试了AssembleNet:Charades和Moments-in-Time(MiT)。它在MiT上的表现是34%以上的第一位。Charades的性能更是令人印象深刻,平均平均精度(mAP)为58.6%,而之前最著名的结果是42.5和45.2。

代表性的AssembleNet模型是使用Moments-in-Time数据集演化而来的。一个节点对应于一个时空卷积层块,每个边指定它们的连通性。较暗的边缘表示更牢固的连接。AssembleNet是一系列可学习的多流体系结构,已针对目标任务进行了优化。

该图在Charades(左)和Moments-in-Time(右)数据集中比较了AssembleNet和最新的手工设计模型。AssembleNet-50或AssembleNet-101具有与两流ResNet-50或ResNet-101相同数量的参数。

微小的视频网络:最快的视频理解网络

为了使视频CNN模型对在现实环境中运行的设备(如机器人所需的设备)有用,必须进行实时,高效的计算。但是,要在视频识别任务上获得最新的结果,目前需要非常大的网络,通常具有数十到数百个卷积层,并应用于许多输入帧。结果,这些网络的运行时间通常很慢,在当代GPU上每1秒视频片段至少需要500+ ms以上的时间,在CPU上至少需要2000+ ms。在微小的视频网络中,通过自动设计可以以相当低的计算成本提供可比性能的网络来解决此问题。Tiny Video Networks(TinyVideoNets)达到了竞争性的准确性,并且在每1秒钟的视频剪辑中,在CPU上运行37至100 ms,在GPU上运行10 ms时,可以实时或更高的速度高效运行,速度比以前快数百倍其他人为设计的当代模型。

https://arxiv.org/abs/1910.06961

通过在架构演进过程中明确考虑模型运行时间并强制算法探索搜索空间,同时包括空间或时间分辨率以及通道大小以减少计算量,可以实现这些性能提升。下图说明了TinyVideoNet发现的两种简单但非常有效的体系结构。有趣的是,学习的模型体系结构比典型的视频体系结构具有更少的卷积层:Tiny Video Networks更喜欢轻量级的元素,例如2D池,门控层和挤压激励层。此外,TinyVideoNet能够共同优化参数和运行时间,以提供可用于未来网络探索的高效网络。

TinyVideoNet(TVN)架构经过发展,可以最大限度地提高识别性能,同时将计算时间保持在所需的限制之内。例如,TVN-1(顶部)在CPU上运行37毫秒,在GPU上运行10毫秒。TVN-2(底部)在CPU上运行65毫秒,在GPU上运行13毫秒。

与之前的模型相比,TinyVideoNet模型的CPU运行时间(左)与(2 + 1)D ResNet模型(右)相比,TinyVideoNets的运行时间与模型精度之间的关系。请注意,TinyVideoNets占据了该时间精度空间的一部分,而其他模型则不存在,即极快,但仍很准确。

结束语

这是有关神经体系结构搜索以了解视频的第一项工作。使用新的进化算法生成的视频架构在相当大的程度上优于公共数据集上最著名的人工设计的CNN架构。还表明,随着架构的发展,学习计算效率高的视频模型TinyVideoNets是可能的。这项研究开辟了新的方向,并展示了机器进化的CNN用于视频理解的前景。

致谢

这项研究是由Michael S. Ryoo,AJ Piergiovanni和Anelia Angelova进行的。Alex Toshev和Tan Mingxing也为这项工作做出了贡献。感谢Vincent Vanhoucke,Juhana Kangaspunta,Esteban Real,Ping Yu,Sarah Sirajuddin和Google团队的机器人技术小组的讨论和支持。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档