童欣：从互动图像到智能图像

企鹅号小编

发布于 2018-02-24 10:59:32

9650

发布于 2018-02-24 10:59:32

文章被收录于专栏：企鹅号快讯

导语

本文是由未来影像高精尖创新中心举办的ICEVE2017（北京国际先进影像大会暨展览会）的精华演讲等整理而成的系列专题文章，本系列内容涵盖专家专访、大会报道、行业纪实等，致力于梳理和提炼ICEVE大会的精华内容并传播给行业和大众。

大家上午好！非常荣幸能有这个机会向大家展示一下我们在微软亚洲研究院最近所做的一些工作，在去年先进技术影像会议上，我给大家介绍了我们如何研发一些技术帮助大家更迅捷、更方便地来采集真实世界中的一些三维内容，那么今天我讲的是进一步的如何“从交互图形到智能图形”。

在过去的几年中，每个人都看到了VR、还有AR设备的普及。

设备的普及也给我们大家带来了新的视觉的享受和很多新的体验。比如说，我们可以让一个人坐在家里就到另外一个地方，去探索一个现在现实世界中遥远的地方，有一个遥在的体验。

那么同样，我们可以把一些AR的三维内容来帮助大家做一些培训也好、学习也好，比如说做一个医学的培训。同样，在工业制造设计中我们也可以通过AR技术让很多的人能够实时看到我们设计的内容，同时进行一些交互修改、多人协同。在一个复杂的工作环境中，我们通过一些AR的设备可以让不同的人协同工作，然后让在现场的人能够快速得到所需要的信息，进行精细的和准确的操作。

为了使所有这些看起来非常激动人心的应用成为可能，我们都需要一个非常高质量的三维内容。如果没有一个高质量的三维内容，所有这些应用都会大打折扣。但是就像去年我这张PPT所展示的，我们现有的这些三维内容的产生方式在过去的几十年其实并没有什么根本的改变，基本上我们需要艺术家付出很辛苦的劳动以后，然后把这些三维内容传递给最终用户，让最终的用户来享受这些三维内容。

我们再来看看他们所使用的工具，我们也会发现现在这些三维内容产生的工具对普通用户而言是非常非常困难的，比如造型软件可能需要我们的艺术家付出几年的辛劳，才能掌握这些工具，现有的捕捉设备基本上只能在一个专业的studio中使用，它们的造价也非常的昂贵。这些都限制了三维内容生产的效率。

在过去的几年中，我们也在探索如何通过一些智能技术来发展一些算法帮助大家快速地生成一些高质量的三维内容。我们想到的一个办法就是，通过智能算法加简单交互的方式来代替一些用户繁琐的交互操作来做内容生成。经过过去几年的探索，我们觉得这是一条充满希望的道路。原因有下面三个：第一是因为我们现在有了一些非常便宜的设备，方便我们快速地获取部分三维可视内容，比如说RGB 相机和深度相机，可以帮助我们获取一些深度信息，或者一些材质信息。另外，我们专业的艺术家和捕捉设备，在过去的这么多年中帮助我们产生了大量的数据，这些高质量的数据可以帮助我们从中学习到一些三维内容的一些模型。最后，最近几年机器学习方面技术的进步也会帮助我们更好地设计算法。

基于这些已有的条件，我们提出一个解决方案，就是通过一些便宜的设备，加上一些比较聪明的算法，结合用户一些非常稀疏的输入，我们希望能够快速有效的生成一些高质量的内容。在下面的这个演讲中，我将展示一些我们在今年所做的三项研究工作。通过这三项研究工作，我们看看如何用这个解决方案帮助用户快速产生三维形状，产生材质和高质量的渲染结果，以及来做一些动画。

第一个工作是bend sketch，这个工作由我们组的刘洋，潘浩研究员带领我们的实习生完成的一项工作。这个工作的目标是，假设我们的用户看到了一个非常漂亮的杯子，或者说他想设计一个这样漂亮的形状，那么他只需要在电脑上通过画一些非常稀疏的，我们叫sketch的一些线框、一些草图，那我们的算法从这些草图出发，自动地帮他生成右边的三维的形状出来。

在这个输入草图中，大家看到我们标识的一些线有一些不同的颜色，黑色的线代表了这个物体的轮廓，这个线我们是需要用户单独标出来的，里面的这些线代表了用户标识的形状的一些细节的起伏变化，这些线的颜色代表不同的形状，是我们的算法自己分析得到的。

那为了做这些事情，我们一个最关键的观察是我们人是非常地擅于从一张两维的图片，或者一个草图中去识别一些三维的形状的，特别是我们的人对一个曲面或一个表面的凸凹变化，它有凸起多少非常的敏感，可以用几根线就能比较好的描述这个变化。

基于这个观察，我们的系统让用户画这些曲线来告诉我们在这个局部的表面上，这个形状到底有凸起或凹下去有多厉害，这样的线我们叫做bend line，那么大家看到就像左边的，同时对一些变化比较尖锐的地方、不连续的地方，我们也希望用户给我们画一些线，就形成了大家看到左边的一个草图，一个sketch，有了这个sketch之后呢，我们的算法就开始工作了。

我们的算法要根据我们的人在这么多年中总结出来的几何的约束，和一些几何的知识来自动地从这个草图中来推断出三维形状。为此我们首先从这个草图中把这些曲线的类型先识别出来，比如说，当用户画了这根曲线之后，我们要识别这根曲线中哪一段代表这个地方的形状是凸起的，哪一段代表这个形状我们觉得它应该是凹下去的。从这个线出发，我们进一步在这个二维画图上形成一个方向场，根据这个方向场，我们把物体表面的法向恢复出来，最后根据法向，我们来恢复这个物体的三维形状出来。

下面，我给大家演示的是一个我们实际系统的操作，那么假设对于一个普通的用户，你脑海中没有什么形象的时候，我们给你一张图，这个时候用户通过笔，大家可以看到先把轮廓描述出来。

我们就生成一个基本的平面出来了，那这个时候用户画了一根线，代表这个地方是不连续的。在这之后，大家看到用户画了几根线，告诉系统说这个地方可能应该凸出来，我们系统就会自动把这个表面变成凸出来的。当用户觉得这个表面差不多了以后，我们就可以利用一个对称性的原则很简单地把这个形状对称出来，然后这个鸟的形状就能很快速地生成出来了。

我们可以再看一遍这个过程，大家可以看到在这个过程中，其实用户的控制是非常的便捷的，他所有的控制只要通过一些简单的草图可以实现，而我们的系统会自动地帮助用户快速地生成你所要的形状。这里给我们展示了通过我们的系统帮助用户所生成的一些各种各样不同的形状，大家可以看到不论是靴子也好、还是贝壳也好，还是一个帽子也好、或者像一个莲蓬也好，所有这些形状都可以通过一些草图来自动生成，我们在完成我们的系统后，也交给了一些普通的用户。还有一些专业的用户进行了评估。普通的用户发现经过大概20分钟左右的学习之后，他们就可以很快速地设计出一些比较好的三维形状。我们的专业用户使用之后他们也发现，这样的一个工具可以帮他们快速地做一些概念设计，生成一些比较理想的初始形状出来。然后他们可以把这些初始形状导入专业的工具，进行一些细节的修饰之后，可以快速达到他们设计的目的，对他们来说帮助非常大。

上面我们讲到了我们如何通过一些草图帮助用户生成一些三维的形状，下面我们来看一看，我们如何通过机器学习的技术，帮助用户生成一些高质量的材质内容，这里面我们想做的工作是，假设用户给定一张单张的图片，我们希望从这张单张的图片出发，自动地生成一些物体材质的贴图。比如说，它的高光贴图、Diffuse贴图和它的法相贴图，有了这些贴图之后，我们就可以把这些材质映射到任何一个新的虚拟的物体上进行绘制。传统中这个工作我们的艺术家每天都在做。但他们需要用各种各样的工具，比如说Photoshop什么的，经过很多手工操作来实现这个目标。那我们所想做的工作是能不能用一些机器学习的技术代替用户这些繁琐的手工，自动地和快速地帮助用户实时地从输入图片生成材质贴图，同时我们希望这张材质贴图的质量至少能达到一定水平，用户或者直接使了，或者稍微修改一下就能够使用了。为了做这个目标，我们希望我们能用一个现在大家非常流行的深度学习的技术来做这件事情。我们面临的挑战是什么呢？如果大家对深度学习稍微有点了解的话，大家会发现这里面一个巨大的挑战就是为了让深度学习工作起来，我们需要大量的训练数据。

所谓的大量训练数据就是我们需要给用户、我们需要给我们的算法，提供成万对或者成十万对的输入图像和对应的真实的材质贴图。这件事情是非常难的，因为如果我们能够生成这么多的材质贴图，我们就不需要做这项工作了。所以，很难。那我们的一个重要观察是虽然我们没有很多这样的训练数据能生成出来，但是我们在真实世界中从网上能够下载到大量的材质的图像出来。

假设我们在Internet网上搜索“wood”，我们能获得大量的木头的图片，这个非常容易。

然后我们发现另外一件很有意思的事情，假设我给了你一套材质贴图之后，现在的绘制算法已经足够得好了，它可以帮助我们非常真实地生成一些高质量的图像出来。就是说一个逆向的过程实际上对我们来说是现成的，那我们就研发了一个算法，希望能利用这些大量的从网上下载到的图片。和我们的这个逆向的绘制过程一起，来帮助我们做一个深度学习的训练过程。最后，帮助我们实现这个目标。这个工作是我们组的董悦研究员带领我们的实习生完成的一项工作。这里我们展示了我们算法所生成的一些结果。大家看最上面的一行是给定一张木头的图像之后，用我们的方法所生成的一个材质贴图，中间这行是假设我们不用我们的技术，只用一些少量的成对样本生成的结果，大家可以看到在高光的部分非常模糊，很多的细节都丢失了，木头的很多地方的纹理也不太对，和下面的这个真实的材质贴图相比较，我们能看到我们生成的结果更加逼近于原始的、真实的材质贴图。

这个技术，我们现在也已经把它完全开源了，大家在网上就可以下载到我们所有的源代码，包括我们的工具，来帮助大家来做这项工作，这项工作我们也非常感谢电影学院的叶风教授的帮助。这个是另外的结果大家可以看到，针对不同的材质，不论是金属也好，还是塑料也好，还是木头也好，我们的方法都能生成比较真实的结果出来。

刚才我们讲到了材质建模的东西，最后我们来看一看动画，刚才陈宝权教授介绍了很多动画生成、物理模拟方面非常出色的工作，那我们想做更多的一些工作。我们不仅仅想生成虚拟内容，我们想，当我们的计算机都这么发达了，当大家做了很多虚拟的东西的时候，我们想把虚拟的东西带到真实的世界中来。在传统中这些制造和设计的过程是非常繁琐和艰难的。为什么呢？因为我们真实的世界所做的所有真实的东西需要符合物理约束，这件事情需要很多计算和物理知识，一般人很难做到。

我们最近所做的一个项目是希望能够帮助用户快速的设计软体机器人。这些软体机器人在真实世界中大家可以看到会有非常非常多的应用，这里展示了一些气动的软体机器人，我们通过给这些软体机器人充气，给定不同的气压之后这些软体机器人就会做不同的变形。然后来做各种各样的工作，比如说在管子中爬行、来抓一些物体这样的东西。设计这些机器人需要丰富的经验和反复的尝试。我们所做的工作是希望用户只给定他想要的一个物体的变形出来。我们的系统自动地来帮助用户设计一个这样的软体机器人出来，这个软体的机器人我们把它打印出来，通了气之后大家可以看到它就可以自动地像左边的心脏一样做它的变形了，所有的过程我们希望是全自动的。这个项目是我们的张译中研究员和刘洋研究员带领我们的实习生一起完成的项目。

这个逆向的设计过程实际上是非常非常困难的，在前段时间我们做完了这个工作之后，我们和北航的做软体机器人的教授进行了交流。他对我们的工作非常感兴趣，因为在他们的日常工作中，即使为了做一个最简单的，大家看到像是抓着手臂这样的工作需要他们的一个研究生通过反复尝试，尝试半年、甚至两年到三年这么长的时间来做这个工作。但在我们现在的过程中我们只需要通过十几分钟的计算，就可以自动地做这份工作了。

我们的方法在用户提供一个这个形状在自然状态下的形状，还有它变形的目标形状之后，首先来算一算哪些部分不需要变形，那这些部分我们就用最坚硬的材质填充起来，然后我们的系统需要自动计算一下我们希望把气囊分布在什么地方，气囊应该长多大、什么形状，我们都把它算好。

然后在这个气囊外面我们希望包裹一堆这样的线框缠绕着，这些线框可以进一步控制当我们的气囊充气之后，朝哪个方向应该变形、什么方向不需要变形，有了这个之后，我们下一步就需要对这些材质，每个线框里面的材质进行进一步的优化，有些地方我们希望它硬一点，这样充气的时候它不太容易变形，有些地方我们希望它稍微软一点，这样充气的地方它的变形就会大一点。

通过这样的计算和优化之后，我们得到了每根线上的材质。最后，我们用三维打印机把这个东西打印出来，然后就会得到我们最后的形状。我给大家展示几个结果。首先比如说我们想做一只青蛙，通过充气它能做一个呼吸一鼓一鼓的动作，那我们做了这样的一个模型出来，通过打印之后，大家可以看到，它可以在充气的时候自动地模拟这样一个变形的效果，同样地我们也可以做一个非常有趣的爬行的小生物。我们希望通过充气之后，它的四肢能够移动之后，能够做一个爬行的动作。

大家可以看到这是我们做的一个结果，非常有意思。那么通过充气之后，这个小动物四肢和它的腹部就会自动变形以后，它就可以在桌上自动地爬行了。那么所有这些自动的过程在以前时候大家是不敢想象的，那么现在通过我们有了三维打印机、通过我们非常有力的计算手段，那么用户只需要提供你的目标，告诉我你想做什么，我们自动地帮助用户来实现他的目标、来做这样的事情。这个是我们实现的一个夹子，那么通过充气，它的夹子可以一张一合来夹很多的东西。

最后我总结一下今天讲的三项工作。我们看到通过一些我们设计的智能算法，我们可以帮助用户快速有效的生成一些高质量的三维内容。这里面的智能可能比大家现在喜欢讲的ren工智能里面的算法定义更宽泛一些。我们讲的不仅是机器学习算法，也包含我们人类通过几百年、几十年所研发的这些几何、物理的知识，也包括我们的人研发的这些高端的、非常有效的物理模拟和物理计算的机制，当然也包含我们最近所研发的一些机器学习的技术。

这些智能的算法有希望能够帮助我们，快速地、方便地帮助用户生成高质量的内容。这是好的方面。但另一方面我们还看到，虽然我们有了这些工具之后，我们离让一个普通用户生成高质量的三维内容，还有很多的工作需要做。我们也希望通过我们技术的发展，能在五年或者十年的时间后能够让大家像现在拍照一样容易地快速地生成高质量的三维内容和图形内容，真正地享受这些图形内容给我们带来的好处。

我的报告就到这里，谢谢大家！

本文来自企鹅号 - 未来影像高精尖创新中心媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

机器学习