视频中的深度学习

计算机视觉研究院

发布于 2018-04-17 16:20:18

8510

发布于 2018-04-17 16:20:18

视频分级介绍

视频分析是计算机视觉领域中的一项重要研究内容。它借助计算机和视频采集设备，在无人监督的情况下，自动完成人类视觉的部分功能。对人类视觉皮层机理的研究无疑对视频分析有着重要的借鉴和指导意义。在这方面，根据人类大脑研究发展出来的深度学习具备了独特的优势。

视觉处理的层级结构

神经科学领域的研究表明，具有认知能力的大脑皮层不是直接对传感器信号进行处理，而是通过复杂的分布式层级结构对信息进行传播，完成了对信号的表达之后再进行处理。层级模型是视觉研究中最经典的基于神经科学研究建立的视觉计算模型。该模型受灵长类动物的视觉神经系统启发，对视觉皮层的神经响应进行建模，形成了层级式的前馈架构。深度学习继承了该发现的思想，提出了具体的模型实现层级式结构。因此，深度学习成为当前最接近人类智能的学习方法，守到广泛的关注。

视频分析中深度学习的特点

视频中基本单元是图像，因此视频分析往往转换为图像序列立即诶进行研究，而这其中图像的表达是最基本也是最重要的环节。与传统的信息表达方式不同，基于深度学习模型构建的表达强调的是一种深层次、端到端、数据驱动的特征学习方式。整个模型的参数不是通过人工设定，而是通过输入大量的训练样本，采用无监督或者有监督的方式，自动学习得到最佳的参数。从函数论角度来说，深度学习模型可以更加有效地表达更加复杂的函数，而这个也是深度学习模型强大表达能力的原因；而从生理学角度，层次模型也更符合视觉信息处理的皮层模型。

传统智能视频分析技术的不足

智能视频分析技术利用一些图像处理、模式识别或机器学习等领域的算法来分析视频序列中的信息，以达到理解视频内容的目的，也被称为视频内容分析。在很多智能视频分析技术中受限于应用场景，为了得到较好的准确率，最后总结出问题出在“算法”这个步骤。

首先，传统的智能分析算法通常采取人工选择特征的方法，如尺度不变特征、方向梯度直方图特征、局部二值模式特征等。特征选择的好坏直接决定算法准确率的上限。算法研究团队的重点任务变成了投入更多的人力去挖掘出更好的特征。数据集越大特征越难发现和选择，时间和人力成本相当之高。而所谓SIFT特征、HOG特征、LBP特征，都是算法人员在某种假设的前提下，寻找特定数据集在某一层面的表示。但这种表示是否真的有效，还是要靠算法人员的经验和运气呢？每种特征都有自己的提取方式，遵循着自己的理论支持，但如果理论假设本身与现实相悖呢？我们无从知晓。

其次，有些智能分析算法模型为浅层学习模型，如支持向量机、逻辑回归等。浅层学习模型通常有0或1层隐层节点，可以在一定规模的数据集下发挥较强的表达能力。但当数据量不断增大时，这些模型就会处于欠拟合的状态。通俗点说就是数据量太大，模型不够复杂，覆盖不了所有数据。而算法模型无法解析大数据，直接制约了其应用的广度和深度，也限制了其进一步发展的空间。

深度学习技术的兴起，为我们解决了以上问题。在讨论深度学习技术之前，先来谈一谈大数据，因为深度学习与大数据密不可分。

大数据时代的变革

生活在大数据时代的算法人员是幸运的，因为他们拥有数据；生活在大数据时代的算法人员也可能是不幸的，如果他不懂得如何利用这些数据，陷入数据的汪洋中无从抽身。大数据对智能视频分析技术有着深远的影响意义。

大数据时代为算法研究提供了足够多、足够丰富的训练样本。样本的容量和种类是算法模型是否具有泛化能力的重要因素。换句话说，训练样本集的规模决定了模型能否对训练样本以外的数据有效的解释。传统的算法研究不可避免地要遇到小样本问题为了解决小样本问题，模型中加入了很多技巧性的手段，并都没有本质的区别，小样本仍然存在。大数据时代，问题的解决就变得简单粗暴多了。将所观测到的海量数据扔进模型中训练，只要模型足够复杂，就能够有效地表示这些数据。

大数据时代为算法研究提供了高效的计算工具。前面提到，数据量的增加意味着需要更复杂的模型来诠释它。我们辛辛苦苦构建了一个模型，到头来发现模型无法求解，或者求解的时间远远超出我们的想象。我们只能眼巴巴地看着一堆数据，然后酸酸地说，大数据似乎没那么有用。值得庆幸的是，有人已经走在了前面。无论是分布式计算、并行计算还是云计算，都在为之努力，试图解决日益增长的计算能力需求。

深度学习技术的出现

许多工业界、互联网界的业内大佬已经开始利用大数据开发了一些系统。百度利用一个近10万小时的语音数据集开发出一款语音识别系统。据介绍，这个系统可以在嘈杂环境下实现81%的准确率。与传统的语音识别系统不同，这套系统并没有采取标准的、计算代价昂贵的声学模型，而是给算法提供丰富的数据，然后让它自己去学习，并取得了卓越的性能。

在这些成果的背后，有着一套共同的算法框架，那就是深度学习。前面提到过浅层学习模型,而深度学习，往往含有更深的层次结构。我们可以认为高层级的特征是由底层级的特征组合得到的。越是低层，特征越简单，如一些直线、斜线、曲线等。越是高层，特征越抽象，越接近所要表达的意图。我们回到图像分析的范畴，对于一个图片来说，最低级的特征是像素，也就是0到255的矩阵。我们通过像素，无法理解图片里的目标是什么。我们从像素中找到了边缘特征，然后用边缘特征组合成不同的部件，最后形成了不同种类的目标物。显然这个是我们所想要实现的。

深度学习初期是一种无监督的特征学习算法，减少了人工干预的步骤，通过多层迭代得到更优的特征。本质上，深度学习也是一种非线性变换，但通过多层嵌套，更适合应用于对大数据内部关系的表示。

深度学习的应用

近年来，深度学习在语音识别、图像识别、自然语言处理等应用中取得了显着的成效。但是在安防行业，深度学习刚刚起步。笔者注意到，已经有很多安防企业开始投入资源开发基于深度学习技术的算法、产品。可见，深度学习正影响着安防企业，影响着智能视频分析技术。接下来我们将从几个行业应用来分析深度学习的前景。

1、人脸识别应用

事实上，在安防领域的人脸识别还没有达到理想的效果。究其原因，视频中的人脸处在一种非常复杂的状态。光照、姿态、表情、饰物、分辨率等都影响着人脸识别算法。已有的训练算法，或者说已有的训练数据无法调整出一个具有很强泛化能力的算法模型。未来的人脸识别模型如果想要取得突破，一方面需要更多更丰富的样本数据，如各种光照、姿态、表情下的人脸图像。谁掌握了大数据，谁将抢夺先机。另一方面，深度学习模型还需要进一步优化。深度模型的理论性还需要加强。到底什么样的模型才算是最优的表示，目前并没有很好的答案。

2、车辆特征识别应用

作为智能交通的一个典型应用，车辆特征识别一直是安防厂商重点关注的技术领域。早期的车辆特征通常为车牌号码和车身颜色等。前几年各大厂商推出的产品都能对车牌号码和车身颜色进行准确识别，但对于车辆品牌和车型系列这些更加复杂的信息特征，并没有很好的识别手段。近两年，深度学习技术兴起，很多厂商利用大规模的数据集训练取得了实质性进展。目前行业水平已经可以达到上千种车系和上百种车标的识别。识别的准确率也已达到实用程度。今后的智能交通设备所能提取的车辆特征将更加丰富，将有助于提升业务部门的工作效率，推动智能交通行业的发展。

深度学习还有很多应用场景，只要涉及到目标检测、目标识别的地方，理论上都可以应用深度学习来解决。就像百度首席科学家吴恩达在一些报告中提到的，深度学习可以取代现有的很多特征提取、目标检测技术。在未来，深度学习技术将与安防应用碰撞出更多的火花。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-10，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自计算机视觉战队微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

登录后参与评论

0 条评论

热度

视频中的深度学习

视频中的深度学习

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐