前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >蔡锐涛:CG内容互动与5G的碰撞

蔡锐涛:CG内容互动与5G的碰撞

作者头像
LiveVideoStack
发布2019-07-01 16:38:29
6580
发布2019-07-01 16:38:29
举报
文章被收录于专栏:音视频技术音视频技术

在LiveVideoStackCon2019上海音视频技术大会前夕,LiveVideoStack采访了相芯科技资深图形引擎开发经理蔡锐涛,他从个人成长聊到CG(Computer Graphics),再到电影《阿丽塔:战斗天使》展现的空前的CG水平,并展望了5G带来的人机交互的新方式。

文 / 蔡锐涛

整理 / LiveVideoStack

LiveVideoStack:蔡锐涛你好,能否简要介绍下自己,包括目前的主要工作及关注领域?

蔡锐涛:我来自杭州相芯科技,资深图形引擎工程师。硕士,毕业于浙江大学CAD&CG实验室。2016年加入相芯科技,视频人脸AR特效SDK技术负责人,主要从事跨平台的2D/3D AR图形引擎的开发工作,对图形图像处理中智能美颜,美肤美型,滤镜特效,2D/3D贴纸,手势识别,背景分割,人脸特征点定位,三维人脸重建以及人脸表情动画合成,角色物理动画以及真实感渲染等技术有较深入了解,同时也十分关注音视频领域相关技术。

LiveVideoStack:在众多的技术方向中,为什么对计算机图形学情有独钟呢?

蔡锐涛:我写的第一个程序是魔方自动还原程序,使用GPU加速进行魔方的渲染模拟。我才知道原来可以计算机可以做一些很有趣的事,可以用来模拟解决现实问题,也是那时第一次接触到了“图形学”。后来,种子生了根,我学习更多相关的技术知识以及课程,本科毕业后到浙大CAD&CG实验室继续硕士阶段的学习,做三维人脸重建以及人脸表情动画合成相关工作,对图形学的认知越来越广,也发现自己未知的东西也越来越多,探索充满挑战和惊喜,也被她深深的吸引。毕业后,加入相芯科技,主要做的图形引擎开发工作,我们做的视频人脸AR特效SDK已经服务于400+ B端客户,包括百度、阿里等,我们的产品与音视频结合后可以服务于众多行业,包括社交、直播、短视频、在线教育、广告营销等,我们写的代码最终也跑在几亿的终端设备上,这个一个富有挑战并且令人兴奋的事。

LiveVideoStack:对于有兴趣学习图形图像处理的开发者,有哪些系统学习的方法和建议?

蔡锐涛:对于想深入学习计算机图形学(CG, Computer Graphics)的同学,系统性的学习确实非常有必要。图形学涉及范围十分广阔,篇幅有限,简要说下。首先,要打好基础,包括编程基础,数学基础。了解计算机图形学涵盖的范围,建模,动画,物理模拟,渲染等等。然后选一个或多个方向更深入的学习钻研。推荐几本书,计算机图形学基础,可以看看《计算机图形学》《数字图像处理》。入门实践可以看看Khronos小组编写的王锐教授等译著的红宝书《OpenGL编程指南》。细分方向上,几何处理方面,推荐看看计算几何Computational Geometry: Algorithms and Applications, Third Edition.。渲染上有两部经典的书Real-Time Rendering 以及Physically Based Rendering。游戏引擎架构入门有本不错的书籍Game Engine Architecture, Third Edition,由Milo大神译著《游戏引擎架构》。当然只学习书本知识是不够的,要多到实际中去,图形学在很多方向上,对工程能力要求也较高,建议多多“造轮子”,加深理论理解,提升工程能力。此外,多关注学术前沿,计算机图形学会议SIGGRAPH,SIGGRAPH Asia等,会议有很多courses也是不错的学习和实践的地方。到最后,如果开始思考往工程方向还是科研方向走?我觉得你已经是个不错的开发者了。

LiveVideoStack:当下学术界和工业界中,图形图像处理的研究的热点有哪些?

蔡锐涛:学术界上计算机图形学研究热点主要有三部分内容,即建模、认知与动画,和绘制模拟与交互。

一是建模,主要研究如何有效地构建、编辑、处理不同的三维物体在计算机中的表达,以及如何从真实世界中有效地获取相应的三维信息。这既包括三维几何建模和几何处理这一研究方向,也包含材质和光照建模、人体建模、动作捕捉这些研究课题。

二是认知与动画。主要研究如何识别、分析并抽取三维信息中对应的语义和结构信息。这个方向上有很多图形学和计算机视觉共同感兴趣的研究课题,如三维物体识别、场景识别、分割以及人体姿态识别跟踪、人脸表情识别跟踪等。

三是绘制模拟与交互。主要探索如何处理和模拟不同三维对象之间的相互作用和交互。包含流体模拟和物理仿真,也包含绘制、人体动画、人脸动画等方面的研究。

前不久上映的电影《阿丽塔:战斗天使》,算得上是工业界CG最前沿的应用,涵盖了CG的方方面面,建模,动画,渲染,模拟等。真实感人脸的渲染是非常难的,人脸包含肌肤纹理、肌肤表层、汗毛、油脂、头发等数不清的细节。我们会发现,早期的电影CG特效中,“人”一看就是假的,但阿丽塔却受大众欢迎,因为她突破了“恐怖谷效应”,做的足够真实。每处CG的细节都能令人称赞,阿丽塔眼睛的渲染和制作非常复杂,因为从眼球壁到血管膜到视网膜,每一层结构都要制作和渲染,眼珠特写镜头运用到了800万多边形数量的几何建模,复杂的光路模拟进行渲染。还有头发的物理模拟和渲染,水中的头发的模拟,液体模拟,毛衣的模拟等。但这些在人脸面前,则显得稍微有点小儿科。人脸的微表情实在太多,比如皱眉一个动作,就牵扯到眉毛、眼睛、鼻子、嘴巴、面部,乃至毛孔、肌肤纹理等等。《阿丽塔》对人脸面部细节的精准捕捉、重建和展现,就极大刷新了人们对CG技术极限的认知。

目前,在工业级CG制作团队之外,也有多家主打民用级CG技术的团队。比如旨在为用户打造PAI(个性化人工智能,即Personal AI)的人工智能初创公司ObEN,比如像我们旨在让每个人都拥有实时互动、智能、个性化的3D技术内容提供商相芯科技,都在让CG技术从大屏走向了小屏,加速虚拟形象的市场化,为人机互动创造出更多的应用场景。

LiveVideoStack:随着网络带宽进一步升级,图像清晰度飙升,对于图形图像处理技术有哪些机会和挑战呢?

蔡锐涛:随着5G等网络基础设施的完善,通俗的讲法就是网络带宽更大,网络传输延迟更低,很多数据密集型低时延要求的领域都会有新的机会,云计算,边缘计算,边云协同,物联网,自动驾驶,远程医疗,虚拟现实,超高清视频等等。在音视频领域,最直接的结果是图像清晰度的提升,另外数据量上也会较4G高出一两个数量级。图像清晰度的提升,一方面可以直接由硬件设备升级支持,另一方面,整个互联网上已经积累了海量的中低清图像视频,那么,图像超分辨率,会有很好的应用场景,并且处理海量数据带来的延迟是个蛮大的挑战,这里充满机会。同时,图形分辨率提升,带宽也急剧加大,高质量的图像压缩算法也有施展拳脚的地方。此外呢,个人觉得VR虚拟现实,AR增强现实,数字化身也会有很好的机会,这三个不同的领域,有个共性,需要高质量的真实感渲染。在当前终端上,由于传输带宽过小,大部分的逻辑计算和图像渲染都要依赖于本地的硬件水平,增加了用户的使用成本,并且很难达到实时的要求。如果采用端云结合模式,云端高质量渲染,云端AI计算,终端显示,可以有效降低用户使用成本,小于5ms的时延能极大提升体验,这其中也有不少机会。数字化身也是我们相芯主攻方向之一。

LiveVideoStack:最后,剧透下你在LiveVideoStackCon2019上海的分享吧?

蔡锐涛:5G即将到来,互联网内容的媒介越来越丰富,已经从传统的文字、语音、图片向视频转移,同时也涌现出了各色各样的数字内容。数据显示,互联网流量70%以上来自视频,在未来,随着网络基础设施的完善,这个数据将超过90%。同时,在音视频领域的新技术、新应用也如雨后春笋。本次分享带大家探索内容互动技术,及其在线教育、社交、智能助理等音视频领域中的新实践。欢迎各位感兴趣的朋友前来交流。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 LiveVideoStack 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档