深度学习在视频分类上的应用还处于起步阶段,未来还有很多工作要做。描述视频的静态图像特征可以采用从ImageNet上学习得到的深度模型,难点是如何描述动态特征。以往的视觉研究方法对动态特征的描述往往依赖于光流估计、对关键点的跟踪和动态纹理。如何将这些信息体现在深度模型中是个难点。最直接的做法是将视频视为三维图像,直接应用卷积网络在每一层学习三维滤波器。但是这一思路显然没有考虑到时间维和空间维的差异性。另外一种简单但更加有效的思路是,通过预处理计算光流场或其他动态特征的空间场分布,作为卷积网络的一个输入通道。也有研究工作利用深度编码器(deep autoencoder)以非线性的方式提取动态纹理。最新,长短时记忆网络(Long Short-Term Memory,LSTM)受到业界广泛关注,它可以捕捉长期依赖性,对视频中复杂的动态建模。
深度学习在图像识别中的应用方兴未艾,未来有着巨大的发展空间。深度学习在物体识别和物体检测应用的一个趋势是构造更大更深的网络结构。在ILSVRC 2012中,Alex Net只包含了5个卷积层和两个全连接层。而在ILS-VRC2014中,GooLeNet和VGG使用的网络结构都超过了20层。更深的网络结构使得反向传播更加困难。与此同时,训练数据的规模也在迅速变大。这迫切需要研究新的算法和开发新的并行计算系统来更加有效地利用大数据训练更大更深的模型。
与图像识别相比,深度学习在视频分类中的应用还远未成熟。从ImageNet训练得到的图像特征可以直接有效地应用到各种与图像相关的识别任务(例如图像分类、图像检索、物体检测和图像分割等)和其他不同的图像测试集中,具有良好的泛化性能。但是深度学习至今还没有得到类似的可用于视频分析的特征。要达到这个目的,不但要建立大规模的训练数据集(有人最新建立了包含100万个YouTube视频的数据库),还需要研究适用于视频分析的新的深度模型。训练用于视频分析的深度模型的计算量也会大大增加。
在与图像和视频相关的应用中,深度模型的输出预测(例如分割图或物体检测框)往往具有空间和时间上的相关性。因此研究具有结构性输出的深度模型也是一个重点。虽然神经网络的目的在于解决一般意义上的机器学习问题但领域知识对深度模型的设计也起着重要的作用。在与图像和视频相关的应用中,最成功的是深度卷积网络,其设计正是利用了图像的特殊结构。其中最重要的两个操作:卷积和池化都来自与图像相关的领域知识。如何通过研究领域知识,在深度模型中引入新的有效的操作和层,对于提高图像和视频识别的性能有着重要意义。例如,池化层带来了局部的平移不变性,有人提出的形变池化层在此基础上更好地描述了物体各个部分的几何形变。在未来研究中,可以将其进步扩展,从而取得旋转不变性、尺度不变性和对遮挡的鲁棒性。
通过研究深度模型和传统计算机视觉系统之间的关系,不但可以帮助我们理解深度学习成功的原因,还可以启发新的模型和训练方法。联合深度学习和多阶段深度学习国未来还有更多的工作要做。虽然深度学习在实践中取得了巨大成功,而且通过大数据训练得到的深度模型体现出的特性(例如稀疏性、选择性和对遮挡的鲁棒性)引人注目,但其背后的理论分析还有许多工作需要完成。例如,何时收敛?如何取得较好的局部极小点?每一层变换取得了哪些对识别有益的不变性,又损失了哪些信息?最近马拉特(Mallat)利用小波对深层网络结构进行了量化分析,这是在此方向上的重要探索。
领取专属 10元无门槛券
私享最新 技术干货