前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >孟德宇:底层视觉任务中的模型驱动和数据驱动

孟德宇:底层视觉任务中的模型驱动和数据驱动

作者头像
马上科普尚尚
发布2020-05-13 17:14:20
3.6K0
发布2020-05-13 17:14:20
举报
文章被收录于专栏:人工智能前沿讲习

报告导读

这次报告主要探讨底层视觉里面两种方法论:模型驱动和数据驱动。首先,介绍了模型驱动和数据驱动各自的优势和缺陷,然后对模型驱动和数据驱动相结合的三种方式以及对应的研究工作进行了详细的阐述。

专家介绍

孟德宇,西安交通大学教授,博导。现任西安交大大数据算法与分析技术国家工程实验室机器学习教研室负责人。曾担任AAAI2016,IJCAI2017高级程序委员会委员。共接收/发表论文80余篇,其中包括IEEE汇刊论文26篇,CCF A类会议论文35篇。主要从事自步学习、误差建模、张量稀疏性等机器学习与计算机视觉领域的基础问题研究。

报告内容

底层视觉一般是指当我们有个观测,这张观测是通过原图变换来的。比如这个变换是下采样的话,就是超分辨的问题,不然是降噪的问题。传统的方法论,用一个优化的目标函数去求解。这里面两项非常熟悉,其中一个是保真项或者是损失项,它的作用是编码,度量观测之间的差异。另外一个是正则项,形成很强的限制。我们说图像复原问题经常是反问题,但如果设置这样的正则项,很可能把它成为常态的问题。

这个模型背后的意义是什么呢?从贝叶斯的角度理解,就是现在有个观测,这个观测里面藏着两个隐变量。第一个就是干净(clean)图像的信息Z,另外一个噪声(noise)的信息E,我们的目标就是从观测Y中推测它的Z和E,所以作为复原图像只是附产品的任务。首先设计两个所谓的先验,Z和E的先验,然后把这两项称为自然函数的相乘。同比于所谓的后验分布,取最大化后验,会得到合理的供给。当我们把最大化后验公式进行变换,就会变成误差+正则的模型。所以从贝叶斯的角度理解图像优化模型,是更为深刻的,也是更有效的。在现实情况中,我们往往会得到数据很多的信息,包括先验的信息,图像的先验和噪声的先验。所以在这个概率的框架下,可以把得到的信息有效地编码在所谓的图模型的表达框架。

这个看上去比较复杂的图模型,其实是我们做所谓的视频的分离模型,这里面每个链接都是有物理含义的,尽管最后呈现的确定性模拟比较复杂,但确实里面每一项都有物理含义。如果是机器学习比较熟悉的,看到优美的图模型就会非常愉悦,因为真的像一段优美的语言。

当我们勾画了优化模型或者贝叶斯模型,就可以通过优化得到解。解的过程,构建算法求解的过程对应一个函数,就是输入一张观测,输出一个预期的输出。这个过程很像学究学习的过程,一个学究做问题的时候,总是喜欢把问题考虑得很清楚,每个环节考虑很细致。如果用一个词形容学习风格,我把它称之为文雅之风,优缺点都可以从这个角度来理解。它的优点是可以解释,每一点都可以解释,可以对单样本去做。但是它的缺点也比较明显,预测比较慢,因为总是一个数据考虑一个模型。而且先验估计非常依赖这个东西,如果先验估计没有预测好,问题假设不准确的话,结果就会出问题。算法设计往往也是比较难的,因为一个箩卜一个坑,对这个数据设计这样的算法,对另外的数据算法完全不同。所以这个问题用一个词形容就是书呆子气,不容易变通,过于死板。

现在进入了所谓数据驱动的时代,这是近几年来计算机视觉更为流行的方法论,做底层视觉和图像复原是采用这样的方法论,就是首先收集大量的数据,比如图象识别收集很多待去噪的图片和干净的图片,去模拟输入和输出,构建巨大的所谓神经网络的参数结构,用非常简单的优化模型去优化参数。实际上,它所得到的也是一个函数,只不过这是显示的神经网络的函数,是由观测到预期的干净图像的显式且确定的函数。我们不仅把所谓干净图当成它的输出,也可以把噪声当成输出。

当我们知道一个观测干净图的时候,同时知道了它的噪声,这是非常简单的想法。但是没有想到,这个工作是哈尔滨工业大学的孟老师来做的,我也有幸成为合作者。这个文章发表以后,很多人关注,已经引用了上千次,现在已经写入了Matlab的工具包。这个网络它实现的也是一个函数,只不过变成了噪声。所以这种方式,如果没有拟人化学习方式的话,就像照猫画虎,看到一个招数就学一下。用一个词形容它的特点就是勇武之气。它的优缺点跟刚才是正好对应的,它的优点是预测速度非常快,是显式的预测函数,不需要相应的假设。但是它的问题是不可以解释,而且依赖大量的标注样本,同时它的结构非常难以设计,所以用一个词形容它的缺点是鲁莽而粗壮。

所以现在有两种方法论:一种是具有文雅之风的传统的模型驱动的方法,一种是具有勇武之气的现代的数据驱动的方法。各自的优缺点摆在一起的时候,会发现真的不一样。很长一段时间里,两者之间呈现PK的状态。很长一段时间里,我都不太想做数据驱动,我在做模型驱动。我的很多朋友见到我说,你还在做模型驱动吗?搞得很痛苦,不过现在也做数据驱动了。不过更有效的方式是两者融合在一起,也许会产生更好的结果出来。

接下来,我想跟大家探讨,如何把数据驱动和模型驱动结合起来的方式。尽管并不是非常成熟,但是希望把这个方法论介绍给大家,跟大家一起分享。

第一种方法论称之为“外炼筋骨皮”,它讲究的层次是网络的训练和数据的利用层次上,它是讲外围的层次。也许我们学武的时候不需要完全模仿,而是考虑到底怎么出这个招,我们有这个武林秘籍,照着这个秘籍去练。对应着真正的数据训练来说,也许不需要监督数据的指导,当我们获取知识的时候,就知道从哪个方向去练。从网络的角度,一个数据要想有效输入网络,最核心的是要知道对数据来说要下降的方向。但是如果不知道它的ground touth,也可以有效知道它的下降方向。它的核心就是构建一个优化模型,或者贝叶斯的mvp的模型,知道朝着哪个方向去上升才会有效,这样的话就可以把大量无监督的数据有效输入到网络里面训练。两者相结合,就可以实现半监督或者无监督的深度学习。

得益于之前做模型驱动的研究成果,可以直接迁移到这种思想方法。比如对低级量的图像重建,我们曾经在2017年的TML上发表过一篇文章,性能不一定是最好的,但是贝叶斯的模型是最完善的,它的性能和有监督的网络几乎是可比的,但不需要有任何的标注资源。

另外一个是今年CVPR上发表的文章,是做图像去雨任务。这个问题也发表过一些内容,也是把有监督和无监督的数据混合起来,做半监督的训练。很有意思的是,当我们做区去雨问题的时候,测试数据往往和训练数据分布是不一样的,而采用半监督的方式,很容易把信息从有监督迁移到无监督。

第二招是“内练一口气”,主要从网络结构本身层次的改变上,我们现在学习招数,它的出发点是改建网络结构,要跟模型有对应关系。从这个方法论上,最具有代表性的是这样一个思想,对一个优化模型设计的算法,通常来说是迭代算法,这个算法一步一步迭代的过程,就是网络一层层执行的过程是非常像的。

基于这样的观点,我们希望把两者建立关联,让网络和优化算法建立得尽量对应一些。这样的话可以获得很多收益。一方面知道网络该怎么构造,另一方面把优化模型里面参数嵌入到网络里面进行端到端的学习,现在已经有不少的研究,但是这些研究里面还存在不少问题,对应关系往往建立不是那么彻底,里面有很多东西不是很好的对应,所以我们就想尝试做一下。我们在做数学推导方面还是比较擅长的。我们就做了一个高光谱的融合,这个没有时间,不多说了,有这样的优化模型,有非常完善的算法,尽我们所能把这个算法一步步嵌入到网络里面,这个网络的每一步和我们的算法几乎完全对应。包括这个问题里面,因为是生成模型,里面包含了下采样算子包括变换,全部嵌入到网络里面进行端到端的学习,网络里面的很多信息是有物理含义的。

当我们把这个网络建好以后,结果让我们很诧异,性能真的很好,执行的过程很像优化的过程,单道递减的过程很像优化算法里面逐步改善的过程。很有意思的是,因为有物理的解释,可以把大量非同源的数据放在一起训练,估计出它的生成因子放在一起。基于这种方法,因为过去做模型驱动做了不少的方法,我们就把这些方法做成了这样的网络,工作都在进行中,效果初步调试出来,还不错。

最后很快地跟大家说第三招,返璞归真。其实我们做一个模型驱动或者数据驱动方法的时候,我们的根还是想做一个贝叶斯的推断,我们还是想得到,给我一个观测,得到一个干净图和噪声的后验的东西。当我们得到这个东西,其实干净图的图像复原还是噪声估计、鲁棒性的问题都能迎刃而解。但是过去是一个箩卜一个坑,构建太麻烦。

怎么把数据驱动的思想嵌入进来呢?我们采用的方法就是所谓的机器学习的利器,叫做“变分”。把后验估计的式子写成另外的格式,这种格式里面所有的引变量所拥有的参数是共享参数的网络模型,如果把这个网络模型里面的参数能估计出来,对新来的数据就可以进行近似的推断过程,这个推断不需要针对数据重新设计,因为你已经提前学好了。

如果想做到这件事情,必须采用机器学习里面变分推断的方法,这个做起来还是比较麻烦的。尽管做起来比较麻烦,但是它的结果是非常值得的,因为我们可以得出后验推断的模型,不需要重新设计模型,可以得到干净图的恢复。干净图的恢复只是一个附产品,不仅得到干净图的分布,还能得到噪声的分布。

最后总结一下,这三招“外练筋骨皮、内练一口气,返璞而归真”,为了形成一个整体,把模型驱动和数据驱动的期望整合在一起,形成最后一句话,希望数据驱动和模型驱动两个风格迥异的小兄弟合作在一起,让它们“互融泰山移”,这条路是艰巨而漫长的,还需要我们继续努力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
AI 应用产品
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档