犀牛鸟人物丨专访刘偲老师：图像之美像素级语义理解研究

腾讯高校合作

发布于 2018-06-04 16:24:26

2.3K0

发布于 2018-06-04 16:24:26

文章被收录于专栏：腾讯高校合作

2013年，CCF与腾讯合作首次发起犀牛鸟基金，旨在助力青年学者开展致力于提升人类生活品质的创新研究，帮助科研成果实现产业落地。至今，犀牛鸟基金已经走过了五年，期间共计760名优秀青年学者提交申请，共计支持89项科研基金项目，78项创意基金项目。

犀牛鸟故事系列通过对话访谈带您深入了解基金项目背后的故事。

导读

美是人类一直追求的目标。“手如柔荑，肤如凝脂，领如蝤蛴，齿如瓠犀，螓首蛾眉，巧笑倩兮，美目盼兮”描写了人们对美貌女子的欣赏。现而今，随着科技的发展，我们可以通过各种方式来达到“美”的目的，比如通过人工智能一键智能美妆、妆容迁移。然而，如何判断一个妆容是被大众所接受的美？如何对不同面容之间的妆容进行迁移？如何让老去的容颜“返老还童”？就此，我们采访了CCF-腾讯犀牛鸟科研基金获得者刘偲，她以及她的团队通过长期对图像的像素级语义理解的深入研究并对上述问题进行了解答。

了解到您现在正在进行图像的像素级语义理解研究，能否具体解释一下您的研究？有哪些成果可以应用到我们的日常生活中？

与传统的图像语义理解相比，图像的像素级语义理解更加细致。比如桌子上放着两只企鹅，那传统的图像分类可以分析出，桌子上有企鹅。但是像素级语义理解就可以找到企鹅的位置，并把企鹅的轮廓描绘出来，使我们可以在此基础上进行PS或者其他应用。

图像的像素级语义理解，由大及小可以分为：场景的语义理解、人的语义理解、人脸的语义理解。图像的像素级语义理解应用场景非常广泛，在自动驾驶、医疗影像处理、视频监控以及增强现实（AR）中都有很大的使用空间。例如在自动驾驶中可以通过对获取到的图像进行分割，以辅助车辆更好地对前方场景进行分析和判断；在医疗影像处理中，可以通过对图像进行解析，准确地发现并定位患者体内的病变组织，从而为治疗提供更多的可靠信息。人的语义理解可以了解你今天的着装，为你挑选自己喜欢的衣服。再缩小到人脸的语义理解范畴，它可以知道你的鼻子在哪里，眼睛在哪里，为你进行智能美妆、妆容迁移，甚至跨年龄的人脸合成。

您刚才提到，图像的像素级语义理解可以应用在人脸解析上，比如智能美妆、妆容迁移、人脸年龄迁移，这个是如何做到的？

我们定义一下这里所说的人脸解析问题。对于给定的一张人脸图片，我们希望得到不同语义部位（比如眼睛、鼻子、嘴等）的分割结果，换句话说就是将图像中的每个像素标注为对应的类别。我们通过一个自适应调节视野域的算法模型，可以让网络自动地去调节视野域以得到最好的分割结果。通过分割我们可以获得嘴唇、眉毛、眼睛等部位的结果。

基于人脸解析，我们开展了智能美妆、妆容迁移、人脸老化三个工作。

智能美妆是根据人脸解析的结果，我们将指定的美妆产品应用于图片，最终得到美妆的结果。有了这一系统，我们可以在不用手动化妆、卸妆的情况下尝试不同的妆容效果。针对妆容迁移的问题，我们先通过人脸解析算法得到妆容的关键区域，然后使用风格迁移的算法将不同区域的妆容转移至对应的区域。根据不同的参考妆容可以获得不同的迁移结果。通过控制迁移时的参数，我们还可以控制妆容的浓淡。针对人脸年龄变换，仍然是先通过人脸解析提取人脸的主要部分，然后使用图片以及对应的年龄信息训练一个生成对抗网络（GAN）。在训练好模型后，将一个人的照片以及想转换到的年龄信息输入进这个模型，就可以得到相应年龄段的照片。

在完成妆容后，要对效果进行评价。目前有什么样的依据来评价最后的美妆效果？

目前从三个维度进行评价，首先是合成效果要自然。不能化妆化的特别假，我们有一些类似FID这样的评价指标；第二个，化完妆后要像她本人，不能面目全非；第三个，要符合指定条件。比如用户想要日妆，不能化成韩妆。

您刚才还提到在人脸的语义理解上还可以做到“人脸年龄变换”，这个具体是如何做的？

是的，我们可以实时生成10年后、20年后，或者小时候的样子，这个技术不仅可以用于娱乐，还可以做一些人的身份比对。比如有很多孩子小时候走失了，过了很多年，家长依然在找孩子，那就可以利用这个跨年龄段的应用来进行对照。这也是我们正在探索的方向。

在人脸老化上，我们会在不同阶段，针对不同个体做不同的处理。比如下图中，第一列是原始的人脸图像，从第二列至最后一列是合成的不同年龄段人脸图像。女性的人脸老化就在脸上加一些皱纹和眼袋，男性除了纹理变化之外，还会加一些胡子，而且根据年龄段加不一样的胡子，比如50岁加的胡子是灰色的，70岁加的胡子是白色的。

在“返老还童”的时候，人脸相应的会变小，而且不同年龄阶段五官的形状、相对位置也会发生改变，难度是不是会更大？这个你们是如何处理的？

我们想让计算机最终通过生成对抗网络学习出来一套规律。首先我们会收集数据并进行分类，这些数据可能是通用的，比如10岁以下、10岁到20岁、20岁到30岁，每个年龄段采集了可能是几千或者上万张图片。然后通过机器学习的方法，学习到每个年龄段共有的属性，比如年轻人的皮肤就比较光滑。老了的话，有白头发。以此形成一定的规则，再来一张照片的话，就可以应用到这个规则并对应出结果。

目前是只面向C端用户么？有没有考虑为B端客户服务？

有的，我们的图像的像素级语义理解还可以应用在电商上，比如，用户在网上选择化妆品的时候，可以化在脸上尝试，这样会提高电商用户的体验感和购买力。比如在小红书这样的网站上，分析其中一些博主的照片，看哪些人喜欢化什么妆？建立起人与妆容之间的对应关系，然后再对个人进行相对个性化的推荐。再比如，你跟某知名博主长得比较像，她比较适合这种的口红，那也可以为你个性推荐这样的口红。

您当时为什么选择进行像素级语义理解在人脸美化方面的研究？是否跟您本身是女性有关？

对，做科研的男性占比相对比较大，他们更注重对所研究项目的性能、速度做一些提升。自己本身作为一个女生，希望结合自己的独特感受，做一些比较好玩的应用。而且，对比男性科研人员，女性比较有韧性，在课题中遇到问题后，会想尽各种办法去解决。所以我在招学生的时候，会有意识地特意招一些女学生。因为女生做我这方面的课题也有一些优势，比如人脸美妆、一键换衣等，女性有很好的审美，也更热情，因为兴趣是最好的老师。

那您目前团队情况如何？是否有一些经验跟大家分享？

目前团队多是90-95后的学生。因为在回国之前，我在新加坡进行了五年的研究，回国后的三年间，才组成了自己的年轻团队。也正因为目前团队多是年轻人，所以在带团队的过程中会更加融入一些年轻人的特色。比如做一个课题，一般的是师兄师姐带师弟师妹，这样的话，就会形成一种很好的合作机制，也可以锻炼师兄师姐的组织领导能力。甚至在平时做一些团建——狼人杀，锻炼成员们的逻辑分析能力和表达能力。

除了团队力量，是否还借助了一些外部力量帮助项目落地？

是的，因为我们在研究过程中发现，做深度学习主要看三个元素——数据、算力、算法模型。然而，高校做深度学习有优势，也有劣势。首先，高校的算法相对强大，但是高校的数据有所欠缺。其次，高校的高性能计算GPU远远满足不了需求。对比之下，企业不仅有大量标注的数据，在高性能计算GPU上也可以满足需求。因此，我们最终通过CCF-腾讯犀牛鸟基金与腾讯团队进行了合作，优势互补。

在科研与产业的结合中，对双方而言都会遇到一些挑战，您对于科研和产业之间的关系以及如何让科研更好地产业化，有什么看法？

确实，我们在合作过程中发现，实际应用中企业更关心算法的性能、速度、功耗的平衡。因此在与企业合作中需要考虑如何在不降低精度的情况下保障速度。所以我觉得科研和产业的结合要形成一个闭环，需要不断地与企业进行反馈。

目前我们与腾讯视频合作开发出一套算法，由腾讯的合作伙伴把算法部署到相应的系统中，同时让获得实验反馈。也许第一个原型没那么好，但是，我们可以针对这些问题把各种信息，比如精度、速度进行改进，然后进行多次反馈，这样，最终的效果才会比较好落地。合作必然都是双方互相磨合的结果，既有高标准的学术价值，又有可以解决实际问题的应用价值，这样的合作一定是要经过多次磨合、反馈才能出来的结果。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-05-04，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能