前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >虞晶怡:机器学习助力物理视觉向数字视觉的转变

虞晶怡:机器学习助力物理视觉向数字视觉的转变

作者头像
马上科普尚尚
发布2020-05-13 17:07:59
5890
发布2020-05-13 17:07:59
举报

报告导读

本次报告的内容主要关注当前的机器学习技术如何助力物理世界向数字世界的转变,从传统的二维成像开始讲起,涵盖了2.5D视觉、光场成像和重聚焦、三维重建等内容,同时指出传统的计算机视觉和图形学技术缺少对语义信息的理解,感与知应该协同起来。以三维人脸为例,介绍了研究团队引入人脸表情等先验知识进行高精度重建的最新研究成果,同时将引入先验知识的思想扩展到三维人体重建,然后介绍了使用机器学习技术进行渲染重建逼真唐三彩模型的研究工作,最后对感知协同、可学习的渲染等研究趋势进行了概括总结。

专家介绍

虞晶怡,上海科技大学信息科学与技术学院执行院长。现为IEEE TPAMI、IEEE TIP、Elsevier CVIU 的编委,并将担任 ICPR 2020和IEEE CVPR 2021的大会程序主席。已发表120多篇学术论文, 其中超 70篇发表于国际会议CVPR/ICCV/ECCV和期刊TPAMI上。主要从事计算机视觉、计算摄影学、计算机图形学、生物信息学等领域的研究。

报告内容

我们身处在一个物理世界向数字世界转变的时代,比如我们现在用AR和VR的技术,希望能够把三维世界重现,能够戴上眼镜甚至不戴眼镜就看看栩栩如生的一个真实世界的画面。其实计算机视觉一直在做这样的一件事情,我们回顾一下在没有深度学习的时代我们是怎么来做这件事情的。

为了重现物理世界,人们最早发现的就是拍摄二维图片。自从有了数字相机,我们就有了数字媒体来记录二维世界,但是还不能完整的记录。目前深度学习的时代,主要是特征提取跟原来不一样,但是整体的思路还是做拼接加粘贴的合成的方法,仍然是单目视觉产生2D图像。

比起更复杂的一点,可以称之为2.5D视觉,人是有两个眼睛的,看到的是有视差的图片,当物体离你越近的时候视差越大,越远的时候视差越小,通过视差可以产生伪3D的效果。

我们在上海搭建的一个中国最大的鸟笼幕布,它可以拍静态的数据也能拍动态的数据,可以对里面的对象进行三维重建。

如果把相机增加得更多,就可以形成相机阵列。这里展示了2000年的时候搭建的一个8×8的相机正面。

有了这样的光场相机之后,可以做动态重对焦,原理也很简单,通过光线追踪到以后得到一个三维的点,把这个三维的点反追踪到所有的相机里面,就产生了重聚焦的效果。

光场重对焦可以用来做合成孔径中的“看穿”效果,比如这个同学被另外一个同学挡住了,用光场重对焦可以做到“看穿”的效果。

刚刚讲到的是2.5D视觉可以做到的效果,下面介绍的是“真”三维效果。捕捉三维世界有很多商用方案,如下图所示,左边是三维重建的传感器,右边是iPhone手机中小型的结构光的摄像头,可以把三维的环境进行重建。

2010年,我们研究团队和宾夕法尼亚大学做了医疗手术的虚拟重建,在手术间里面放了三个相机阵列,最后将它们融合在一起,可以看到一个比较低清晰度的三维效果,分辨率会非常低。

在新一代支持三维成像的手机中,每个相机是一个RGBD的相机,可以重建除三维效果,但是这个三维的效果离真实的三维效果还是有一定差距的。

所以最大的问题就是,当我们把物理世界向数字世界过渡的过程中,传统的计算机视觉不管是主动光还是被动光似乎已经达到了极限。刚刚讲到,传统的计算机视觉忽略了一个非常重要的组成部分,那就是语义信息,这是深度学习能够提供的最重要的一部分,恰恰是传统三维重现里面忽略掉的一部分。

当今的趋势就是传统三维计算机视觉正逐步从传统意义上的感慢慢变成知,所以要把认知这部分加入到传统的三维的重建过程中,感知协同,才能够产生非常高清的三维重现效果。

到底三维学习提供了什么有意义的知识?举例而言,通过拍五张照片就可以产生高清人脸,之所以能够做到这一点,是因为我们每个人每天看很多张脸,大脑里面对人脸几何结构和属性等具有先验知识,可以做一个人脸的先验模型作为基础,然后再用计算机传统的算法对这个模型进行精细优化。

下面介绍我们ICCV2019 oral的研究工作《Photo-realistic FacialDetails Synthesis From Single Image》,只拍一张图片,就可以把超高清人脸的几何模型恢复出来。

传统的方法基本是用先验模型进行拟合,但是有很多更重要的先验知识没有用进去,比如表情,在传统三维人脸的合成过程当中,只考虑了这些节点的位置。

所以我们引入的第一个概念就是把表情当做先验,首先第一步分析出表情是什么。然后我们再加上这个细节,首先肯定是通过深度学习学习出来的,两部分的训练数据,利用多角度拍摄、多光源拍摄的方法,得到大概两三百人的高清数据,就提供了训练的数据。

这部分数据量总体来讲是比较小的,剩下的数据量可以通过自然图像,首先估算出人脸的pose,同时估算出周围的环境光,计算出环境光以后再估算它的细节,然后进行重新渲染。

如下图所示,最右边的是我们论文的结果,可见通过单张的图片就可以恢复出皱纹上非常仔细的细节。

刚刚提到的,使用深度学习进行三维脸部重建,它提供了几个有用的先验信息,第一个是表情,第二个是先验基础模型,第三个是在自然光环境下渲染出来的结果,这些先验知识都是传统计算机视觉所不具备的,而深度学习是能够提供的。

同样的方法可以运用到身体(body)的三维重建。在重建三维人体的过程当中,最困难的部分是遮挡。

大家每天看到不同的人体,大脑对这个人体有先验的理解,所以可以产生先验基础模型;另外,通过变换姿势,有的地方被遮挡,有的地方不被遮挡,可以通过时序上的几何进行填充。

传统的深度学习一直在往二维的视频分析、二维的识别和二维的理解来发展。而目前整个趋势是从二维变成了三维,怎么利用二维的学习更好的进行三维的重现,其中比较关键的就是渲染(rendering)。我们研究团队去年发表了一篇文章,叫做表面工厂,表面工厂是用来渲染非常复杂的物体,诸如陶瓷、唐三彩、玉器等。这些物体的表面光照非常复杂,不是数学模型能够表述的,传统的是通过多点采样进行插值,但是这样的方法会产生插值的不均匀。

而我们采取的方法是把多个点采样的数据融在一个网络里面进行训练,下图就是算法的一个整体框架结构。

看一下用这个方法产生的唐三彩的效果,它既非金属又非漫反射,但是利用这个表面光的采样,可以看到它已经做得非常逼真。同样也以处理非常复杂的半透明物体,比如雅诗兰黛的小棕瓶,它的半透明度也可以恢复得非常好,传统方法难以解决,使用深度学习的方法可以做到很好的材质区分。

总结来看,今后的趋势就是感知加认知会融合在一起,不再是传统的二维图像拍摄系统。利用深度学习的方法,可以提取很多先验知识。不过,有些先验知识会把整个的三维重建带向错误的方向,所以选择先验知识的时候是见仁见智。还有,用机器学习进行渲染是非常值得关注的研究方向。

最后用一句话总结,就是“因为看见所有相信,因为相信所以看见”。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 我们身处在一个物理世界向数字世界转变的时代,比如我们现在用AR和VR的技术,希望能够把三维世界重现,能够戴上眼镜甚至不戴眼镜就看看栩栩如生的一个真实世界的画面。其实计算机视觉一直在做这样的一件事情,我们回顾一下在没有深度学习的时代我们是怎么来做这件事情的。
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档