2021年CCF-腾讯犀牛鸟基金课题介绍（二）——数字图像处理与计算机视觉

腾讯高校合作

发布于 2021-06-07 12:40:09

5120

发布于 2021-06-07 12:40:09

腾讯公司和中国计算机学会于2013年共同发起的CCF-腾讯犀牛鸟基金（以下简称犀牛鸟基金），始终致力于支持海内外青年学者开展前沿学术研究与技术实践。犀牛鸟基金通过提供企业真实问题与业务实际需求，搭建产学研合作及学术交流的平台，推动合作双方学术影响力的提升及研究成果的应用落地，促进自主技术的创新与发展。

本年度犀牛鸟基金共设立10个科研方向共33项研究课题

申报截止时间为2021年6月15日24:00(北京时间)

申报链接：

https://www.withzz.com/project/detail/129（请在PC端登录）

我们将分五期对研究课题进行详细介绍

本文将介绍数字图像处理与计算机视觉课题

欢迎海内外优秀青年学者关注并申报

3.数字图像处理与计算机视觉

3.1 针对移动端的 Transformer 小型化的探索

Visual Transformer技术相比与CNN网络技术，在计算机视觉领域有更好的实现效果以及更合理的结构设计。但目前Transformer的模型都是针对GPU设计的大型模型，主要原因是Transformer整体的复杂度很高，参数量大，同时需要比较强的算力来支撑，所以很难在移动端实时运行。因此，在移动端支持实时模型计算的探索，对于Transformer在移动端AI（发布器）场景下的落地具有非常重要的意义和价值，可以显著的提升移动端AI算法的整体效果。

合作团队将提供相应的场景，模型训练平台（基于腾讯机智与Venus做过上层的训练加速和多机多卡的适配），以及TNN Inference层面的OP加速支持。

建议研究方向：

Self-Attention的小型化；
针对计算机视觉任务的Transformer跟CNN结构的科学结合；
基于底层Inference框架，实现Transformer的运算加速。

3.2 对抗机器学习

在对抗样本攻击对深度神经网络及其相关应用带来了很大的安全隐患的情况下，对抗机器学习方向研究具有的学术与应用价值与日增加。近期虽然不同的攻击和防御方法相继被提出并取得了一定的攻击/防守效果，但对抗样本的理论机制还非常不明确，并且目前最为有效的基于对抗训练的防御方法存在泛化性不足、训练时间开销大等缺点，无法直接应用到实际的业务中。此外，目前黑盒/物理场景下的攻击效果相比于白盒攻击还比较弱，无法有效的衡量实际系统的对抗脆弱性。建议聚焦对抗性原理探究以及实际场景下的对抗攻击/防御需求，如轻量级防御方法和高效的黑盒/物理攻击方法等。

建议研究方向：

深度神经网络对抗性原理探究；
高效的黑盒攻击、物理对抗攻击算法研究；
高效的对抗防御方法研究，包括轻量级对抗防御和对抗训练泛化性问题等。

3.3 人脸活体检测

人脸识别技术的应用越来越普及，如何保证人脸应用的安全变得越发重要。活体检测就是判断人脸是否来自真实的用户，而非照片、面具等其它介质的攻击，保证人脸识别系统安全的关键技术。但很多攻击与真人在视觉上差异非常小，特别是一些高逼真的3d面具攻击，这给活体检测算法提出了很高的要求。本课题聚焦活体检测中的难点问题，从rPPG、域泛化、域迁移、异常检测等方向进行研究，提升活体模型的鲁棒性和准确度。

建议研究方向：

从rPPG心率检测着手解决活体问题，重点关注如何消除人脸运动、光照、肤色等带来的噪声及影响；
从图像细节分析、网络结构设计等着手，提升模型精度和效率；
从视频序列分析技术着手，分析真人与介质攻击在时序运动过程中的不同，提升模型稳定性；
从域泛化、域迁移等方法着手，提升人脸活体检测模型对光照、场景、采集设备的鲁棒性；
从异常检测、可解释性分析等方法着手，研究如何提升模型对未见过攻击样式的有效防御。

3.4 人体视觉信息的编辑、迁移、生成与建模

随着云游戏技术与产品的发展，面向大屏及客厅场景的云游戏应用成为重要的发展趋势。这些场景中玩家所面对的选择将不再局限于狭义的电子游戏，而是包括体感游戏、健身、舞蹈、视频创作与分享、换装试衣、会议交流等丰富的娱乐场景。

这些应用中，人体视觉信息的迁移、生成、或建模及渲染能力成为关键技术。近年来，虽然相关课题吸引了学术界越来越多的关注，但当前大部分方案在输出稳定性、质量、效率等方面仍然有不足，离商用水平有一定差距。

因此，在这个命题中，我们希望合作方可以通过视觉或图形学的算法研发，实现对人体姿态、服饰、动作、风格等视觉信息中的一项或几项的解耦与编辑能力。无论是基于生成网络、或是3D建模与渲染的技术方向，我们均希望以最终呈现效果优先，实现对人体相关图像高品质、高拟真度算法方案的攻关及技术储备。

建议研究方向：

基于RGB/单目摄像头的人体姿态、服饰、动作的编辑、迁移与生成；
基于RGB信息的高品质人体3D建模。

3.5 数字人驱动及渲染技术

近年来，数字人在虚拟主播、AI助手、虚拟偶像等领域的应用迅速增加。虚拟卡通形象主播、支持不同形象不同语言的虚拟AI主持人、直播带货主播的应用，体现了数字人具有广泛的应用场景以及高确定性的相关市场。

数字人涉及的技术中，驱动和渲染技术是目前业界关注的重点，既有方案通常因高成本、高耗时、难迁移等原因难以应用。探索能够在服务器（CPU/GPU）或移动端等目标平台实时处理，同时生成逼真自然的动作、表情、模型效果的轻量级、高质量的数字人驱动/渲染技术，同时产出高质量的学术成果，是本次研究关注的重点。相关研究成果也有机会在腾讯相关数字人技术中得以应用落地。

建议研究方向：