首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

尝试“打开黑箱”:“跨连结构”深度神经网络的理解与解释|NSR

在近期发表于《国家科学评论》(National Science Review, NSR)的文章中,作者建立了两种多层卷积稀疏编码模型(ResCSC和MSDCSC),它们分别与两种“跨连结构”的深度神经网络(ResNet和MSDNet)存在等价对应关系,这一对应关系可以帮助我们理解深度神经网络的内部原理与数学基础。

最近十余年,卷积深度神经网络取得了空前进步,正逐渐应用于计算机视觉、语音识别、自然语言处理、生物信息学等各种领域。

为了解决卷积神经网络在训练过程中出现的退化现象,研究者提出了多种改进方案,其中就包括具有“跨连结构”的神经网络。最典型的跨连神经网络包括残差神经网络(ResNet)与密集连接网络(DenseNet)。而将密集连接神经网络与“空洞卷积”结合可形成多尺度密集连接神经网络(MSDNet)。

另一方面,神经网络是一种黑箱(black-box)模型,我们对它的数学原理还缺乏深入理解,同样还不能全面理解跨连结构的优势从何而来。

在“打开黑箱”方面,研究者也取得了一些进展。在最近的一项研究中,研究者将经典的深度卷积神经网络与多层卷积稀疏编码联系起来,建立了神经网络中逐层前向传播(采用ReLU非线性激活)与多层稀疏编码之间的“等价”关系。这样的类比和推理,为理解经典的深度神经网络,提供了非常独特的视角。

那么,我们能否借助“多层卷积稀疏编码”这一工具,去理解和认识跨连深度神经网络呢?

跨连深度神经网络进行表示学习,等价于多层稀疏编码模型进行稀疏编码学习。

在这篇文章中,作者从多层卷积稀疏编码模型的编码初始化和字典矩阵设计角度出发,分别建立了ResNet和MSDNet与多层卷积稀疏编码模型的等价关系(见上图),为理解高级的深度神经网络结构提供了基础。

具体而言,迭代阈值收缩算法(ISTA)是一种求解稀疏编码问题的方法,作者对ISTA中初始值和字典矩阵的结构进行设计,分别得到了两种多层卷积稀疏编码模型:ResCSC和MSDCSC。这两个模型与ResNet和MSDNet存在几乎对应的联系,并可以对它们的性能优势进行解释:

更优的初始化可以自然解释ResNet是如何避免退化现象的;

字典矩阵中增加的一个单位阵结构,可以解释为什么在MSDNet中,神经网络通道相连操作可以更好地拟合数据,增强泛化能力。

需要指出的是,通过ISTA算法的多次迭代,即展开操作(unfolding),可以得到更一般的密集连接操作。数值实验证实,这可以进一步提高密集连接神经网络的性能。

这项研究从更广的视野,将强大的深度神经网络与多层稀疏编码联系起来,为前沿深度神经网络找到了一类等价模型。

此类研究表明,神经网络中的前向与反向传播的过程,是分别进行稀疏编码和字典学习的过程。于是,不仅反向传播是一个优化问题,正向传播本身也是一个优化问题。因此,基于训练数据,训练深度神经网络参数的问题,可以视为求解特殊字典结构矩阵与编码矩阵的多层矩阵分解过程。这为进一步利用稀疏编码和矩阵优化理论解释神经网络奠定了基础。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201207A08RLB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券