【NSR特别专题】徐宗本孙剑：模型驱动的深度学习

马上科普尚尚

发布于 2020-05-14 16:27:56

1.9K0

发布于 2020-05-14 16:27:56

编者按：《国家科学评论》于2018年1月发表“机器学习”特别专题，由周志华教授组织并撰写文章。专题内容还包括对AAAI前主席Tom Dietterich的访谈，徐宗本院士、杨强教授、朱军博士、李航博士、张坤博士和Bernhard Scholkopf等人的精彩文章。

徐宗本院士与西安交大席科学家孙剑博士在文中介绍了一种新的思想，探索结合模型驱动方法和数据驱动的方法，解决现有启发式方法普遍存在的限制。

模型驱动的深度学习

作者：徐宗本，孙剑

翻译：王嘉豪

校译：刘市祺

深度学习如今被广泛视为机器学习和人工智能领域中最具有代表性的进步[1, 2]。这自然应该要归功于深度学习在最近的一系列具有挑战的应用问题上取得了突破性的进展：深度学习算法将人脸识别问题的准确率提升至99%，击败了人类在人脸识别方面的准确率。[3]。在语音识别和机器翻译领域，深度学习的性能也已经达到同声传译的水准[4]。在象棋，围棋领域，深度学习成功击败了人类世界冠军选手[5]。在一些特定疾病的诊断问题中，深度学习达到了中高级专业医师的水平[6]。到目前为止，我们已经越来越难找到一个还未被深度学习涉足的领域。

你或许已经注意到以上这些技术突破性应用都发生在大型IT公司或者像Google，Microsoft，Facebook等这类应用开发研究机构。为什么？这是因为开发深度学习技术需要一些必要条件，例如海量的标注数据（数据的充分性），充足的计算资源，以及选择具体的神经网络层数、每层神经元数、激活函数类型等网络结构参数的工程经验。由于以上的这几个原因，这就要求公司或者研究机构既要有具备充足知识以及神经网络设计的工程经验，又要求有较长时间才可以积累起来的标注数据集。专业的IT公司以及应用开发研究机构很明显才具备以上条件。

随着大数据时代的到来，获取数据已经渐渐不再是障碍（至少在许多领域是如此），但是如何选择合适的网络的拓扑结构依然是深度学习的一个瓶颈。这个主要的原因是由于人们对于网络拓扑结构与网络性能之间的联系缺乏理论上的认知。时至今日，网络拓扑结构的选择依然依靠于工程实践而非依靠科学研究，这直接导致了现在的大多数深度学习多半是缺乏理论基础的启发式方法。网络结构的设计，网络的解释以及对其泛化能力理解的缺失是深度学习方法普遍存在的限制。这些缺陷虽然阻止不了深度学习广泛应用的趋势，但在“标准化、产品化”的AI技术驱动下，会变得更加隐蔽，也更加具有危害性。。

一个很自然的问题便是我们是否能够依据理论来设计网络结构，并且使网络是可解释以及可预测。我们相信通过结合模型驱动方法和数据驱动的深度学习方法是可能能解决这一问题的。我们将深度学习方称为数据驱动方法是因为它只依赖数据解决问题。相比之下，模型驱动的方法指的是使用基于特定任务的目标、机理和先验构建起来的一个代价函数模型（例如一个特定的损失函数）。模型驱动的方法的一个显著特征是当模型足够准确时，其结果在绝大多数情况下可预期甚至取得最优，并且其最小化算法是具有确定性的。模型驱动方法的一个致命缺陷是在实际应用中对一个具体任务进行精确建模是困难的，有时候追求精确建模是一种奢望。近些年来，我们研究并实现了一系列模型驱动的深度学习方法[7-10]，并证明了这些模型驱动的深度学习的可行性以及其在实际应用中的有效性。

图1. 模型驱动的深度学习方法

针对具体的任务，我们模型驱动的深度学习方法的主要过程如图1所示，具体过程如下：

1、首先我们基于任务背景（例如目标、机理以及先验知识）构建一个模型族（Family of Models）。模型族是指具有大量未知参数的函数族，类似于机器学习中的假设空间。与模型驱动方法中精确模型不同的是，这一模型族仅仅粗略和大致地定义了解空间。这一作法的目的是大大减轻精确建模的压力下吸收模型驱动方法的优点。

2、之后我们设计用来解模型族的算法族（Family of Algorithms），并且建立该算法族的收敛性理论。算法族指的是用来在函数空间中使模型族最小化的具有未知参数的算法。收敛性理论至少应当包含收敛速率估计以及保证算法族收敛的约束条件。

3、将算法族展开（unfold）成一个深度网络，它的参数像深度学习方法一样被学习。由算法族的收敛速度估计确定深度网络的深度，由算法族的参数限制条件确定深度网络的参数学习空间，算法族中的所有参数在深度网络的每一层设置为自由变量。这样，深度网络的拓扑结构完全由算法簇唯一确定，从而可用任一成熟的深度学习算法进行训练。

图2. ADMM-Net[7]的拓扑结构：已知欠采样的k空间数据，输出经过T个阶段处理后的MRI重建图像

以[7]为例，我们将以上模型驱动的深度学习方法应用于压缩传感核磁共振成像（CS-MRI），也就是使用低于奈奎斯特速度（Nyquist rate）的k空间（k-space）重采样数据还原高质量核磁共振图像。模型族的定义如下：

其中A = PF是评价矩阵是测量矩阵，P是采样矩阵，F为傅里叶变换矩阵， Dl 表示一个线性滤波操作对应的变换，g( . )表示一个正则化函数，λl 是正则化参数，L是线性变换的个数。 (Dl, g, λl, L)中的全部参数都是未知的并且反映了模型的不确定性（注意这些参数在传统CS-MRI模型中是已知和确定的）。根据交替方向乘子算法（ADMM），用来解决此模型族的算法族可以被定义如下：

其中S(·)是与g(·)的非线性投影函数。根据优化的ADMM的收敛性理论，这个算法是线性收敛的。通过将算法族展开成深度模型，我们设计出了一个如图2所示的由T个连续阶段构成的ADMM-Net。每个阶段都包含一个重建层（R），一个卷积层（C），一个线性变换层（Z）以及一个乘子更新层（M）。我们通过反向传播算法来学习参数(S, Dl, λl, ρl, ηl ），在[7]中，我们使用模型驱动的深度学习方法在CS-MRI图像重建中取得了目前已知最好的结果。

以上模型驱动的深度学习方法显然保留了一些模型驱动方法的优势（其确定性与驱动性）同时也避免了必须精确建模的缺点。它同时也兼备了深度学习方法强大的学习能力，而又克服了网络拓扑结构选择的困难。这使得深度学习方法的可设计性和可预测性变成可能，并且在实际应用中很好地平衡了通用性和相关性之间的关系。

我们指出模型驱动的方法和数据驱动的方法二者之间并非相对的关系。因为如果模型是精确的，它将提供关于问题本质的描述，从这些本质中我们可以生成无限的理想数据样本，反之亦然：当我们拥有充足的样本数据时，问题的模型也便以“表型”形式充分地（但是离散地）展现了，这是模型驱动深度学习方法有效性的本质原由。

在前期调研有关模型驱动的深度学习方法的时候请参考[2,8]。有关近期取得的进展可以参考[7,9-11]。目前大多数成功的应用都集中在图像科学领域中，这类问题具有可以在模型族中被良好建模的领域知识。我们相信以上模型驱动的深度学习方法可以在那些能够通过整合领域知识设计出模型族并通过以上方法设计出深度结构的应用中被广泛使用。

REFERENCES

1. LeCun Y, Bengio Y and Hinton G. Nature 2015; 521: 436–44.

2. Gregor K and LeCun Y. ICML 2010.

3. Schroff F, Kalenichenko D and Philbin J. CVPR 2015.

4. Yonghui W, Schuster M and Zhifeng Chen et al. arXiv:1609.08144, 2016.

5. Silver D, Aja Huang and Chris J. Maddison et al. Nature 2016; 529: 484–9.

6. Gulshan V, Peng L and CoramMet al. Jama 2016; 316: 2402–10.

7. Yang Y, Sun J and Li H et al. NIPS 2016.

8. Sun J and Tappen M. CVPR 2011.

9. Sun J and Tappen M. IEEE T Image Process 2013; 22: 402–8.

10. Sun J, Sun J and Xu Z. IEEE T Image Process 2015; 24: 4148–59.

11. Sprechmann P, Bronstein AM and Sapiro G. IEEE TPAMI 2015; 37: 1821–33.

National Science Review 5: 22–24, 2018 doi: 10.1093/nsr/nwx099 Advance access publication 25 August 2017

《国家科学评论》（National Science Review, NSR）是我国第一份英文版自然科学综述性学术期刊，定位于全方位、多角度反映中外科学研究的重要成就，深度解读重大科技事件、重要科技政策，旨在展示世界（尤其是我国）前沿研究和热点研究的最新进展和代表性成果，引领学科发展，促进学术交流。NSR的报道范围涵盖数理科学、化学科学、生命科学、地球科学、材料科学、信息科学等六大领域。基于科睿唯安发布的2016年度的期刊引证报告（Journal Citation Reports，JCR），NSR的最新影响因子达到8.843，稳居全球多学科综合类期刊的第五名（8%，Q1）。NSR发表的所有论文全文可以在线免费阅读和下载。
本文经《National Science Review》(NSR,《国家科学评论》英文版）授权翻译，“机器学习”专题的全部翻译文章已刊出，可查看历史文章获取更多信息。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-21，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法