专栏首页优图实验室的专栏大会活动 | WAIC2020腾讯QQ黄俊洪:科技向善,用技术解决AI发展所带来的问题
原创

大会活动 | WAIC2020腾讯QQ黄俊洪:科技向善,用技术解决AI发展所带来的问题

7月10日,世界人工智能大会腾讯论坛在上海成功举办。本次论坛邀请到了国内外数十位重量级嘉宾,共带来5场主题演讲和1场圆桌论坛,进行观点与经验的交流,思想与智慧的碰撞,探讨人工智能的应用与未来。

随着人工智能的发展更好的将人与物、人与服务实现了连接,走向大社交时代。而在5G和人工智能等技术不断渗透下,社交领域的战略已在升级。在人工智能的加持下,在社交领域的产品和技术又有怎样的新突破?

腾讯公司社交基础技术部总经理、腾讯QQ技术负责人黄俊洪先生受邀带来「AI加持,解锁社交产品新玩法」主题演讲。介绍了QQ光影研究室在CV领域的研究成果及影像技术体系,及一些实际业务场景的落地案例,并在最后分享了创新领域未来所面临的挑战和技术展望。

各位领导、嘉宾,大家下午好!欢迎来到人工智能大会的腾讯分论坛。刚刚赵总和吴总讲了在AI物联网的应用,我主要讲讲AI在泛娱乐领域的应用。演讲主题是「AI加持,解锁社交产品新玩法」。

十年的发展,AI的技术应用无处不在。从工业、安防、医疗、无人驾驶、量化交易乃至我们的手机APP都可以看到AI的身影,从产业链来看从底层的芯片、硬件,云基础设施,到算法框架,到上层的产业应用和消费者产品,我们都可以看到AI在各个领域所产生的价值。我们看到AI新技术在持续高速的迭代,从2012年开始以深度学习为代表的AI技术在视觉领域解决问题,从最早的AlexNet分类问题上打破了feature工程的垄断,以深度学习为检测分割领域,到2016、2017年强化学习,到现在的全面突破。在计算机视觉以外,我们可以看到深度学习和语音领域取得大幅度的进展和突破。不仅仅在学术界,在工业界随着AI能力的发展,创造出许多的应用场景,刷脸支付,自动驾驶,AR、VR等。

随着AI新技术在各个领域高速发展,随着人才的涌入,我们可以看到AI能力在大幅度的提升。比如说最左边的白色图,目标跟踪,监测跟踪领域,相比之前的结果有大幅度的提升。

AI新技术持续高速迭代

检测的精度和性能方面也在逐年的提升,比如说中间的数据集。除了传统检测跟踪能力,我们可以看到新的能力,比如说GAN新的能力取得不错的进展。便民方面,在人脸生成上有大幅度的提升。随着AI算法,模型的提升,随着硬件算力的增长,我们可以看到越来越多的AI能力已经达到了产品落地的效果和性能的要求,逐步应用到我们日常的场景当中来。

AI的发展让社交产品丰富多样,手机自拍的时候,可以提供挂件AI相机。当你跟好友视频聊天的时候可以提供实时美颜的能力,通过手机捕捉用户面部的表情识别手机的游戏。手机看照片的时候,可以识别照片里的食物等,可以提供自动化的滤镜。用户上传视频的时候,可以推荐适合的BGM。还有基础的服务,像人脸识别等基础服务。

我们构建了CV技术体系支撑新玩法落地。这是我们基础的技术架构,从最底层的基础设施,像星辰算力平台,给我们的平台提供很好的训练。中间是基础AI能力的储备。最上层是跟具体的业务场景结合和落地。所有的AI能力都是通过发布器中台的框架去触达终端用户为满足内外部产品的需求。

以拍摄发布器中台为载体,AI能力服务了公司内部的更多的产品,像QQ、微视、空间、Now直播,全民K歌等等,我们为这些提供实时美颜,视频挂件,视频编辑的能力。通过腾讯云为合作伙伴提供业务的支撑。

接下来分享一下在实际的业务场景的落地案例。比如说在最基础的美颜领域,从2D到3D到GAN实时生成,在不断的提升我们在美颜美妆的效果。在2D根据五官来拆分独立的网格,比如说脸妆、眼妆相互独立,结合高精度的点位达到贴合真实的感觉。在3D场景主要通过3D重建技术解决3D的人脸妆容的变化和遮挡的处理。基于GAN我们可以智能的识别肤值,解决美白处理和环境光照下面的效果优化。

基于GAN神经网络,第一次有机会实时编辑用户的年龄,我们根据定制的优化算法,把实时用户小孩年龄段,5-7岁什么样的效果。通过3D重建首先重建用户3D用户模型,借助3D网络的形变算法,利用GAN网络实现人脸变小孩的编辑。然后把算法扩展到全年龄段的编辑,用户可以实时看到从年轻到小孩,到老年人的过程,还是非常有趣的一个玩法。

卡通化也做了落地,二次元在年轻群体中发展的非常的迅猛,但是我们二次元的文化风格非常多样,我们有没有可能去设计出一种低门槛高质量的方法去解决这种不同卡通化的风格呢?团队经过摸索,我们研发出一套小样本的生成算法,通过两三百张的样本,就可以形成一个新的卡通化的风格。业务只需要提供小样本数据给我们,我们就帮他们生产出有趣的卡通化的风格。像中间是普通二次元的风格,右边是宫崎骏卡通化的风格。

人体也有一些储备,基于鲁棒性的3D技术,结合GAN网络,我们在业内首发了人体迁移的玩法,大家可以搜索QQ黑科技,看到用户上传的跳舞的视频。用户一张照片,利用人体重建技术,给用户重建人体3D模型,并且对它进行动作迁移,结合GAN网络优化整个人体的纹理,用户只一张图片就可以迁移到目标动画上面。创造营2020活动里面不会跳舞的用户,只需要一张图片就可以变成灵魂的舞者。

体态和手势识别技术上的升级,让我们在移动端方面可以更好的理解用户的行为。在体态识别方面,比如说手势识别、单手关键点、双手关键点、手势3D关键点位,经过越来越精确的定位,在移动端设计出更加风采的内容。通过不断的摸索,我们团队研发出手部3D关键点技术,基于手势的识别,我们可以精准的识别用户手势的类型,基于手势2D或者3D的点位,利用手势信息就可以在移动终端设计出更加舒适的交互。

人体骨骼方面,在性能和精度都有一个不错的指标。中间是我们的网络模型可以复用到半身、全身轮廓点不同的任务。人体关键点技术就像一个手电筒一样,我们可以探测出很多有趣的玩法。基于这些人体骨骼关键点用户的2D和3D的点位信息,我们就可以做到人体的塑性,比如说变得大长腿,变得更加漂亮,人才变得更好,也可以通过它来驱动2D和3D的形象。

AI人脸融合技术方面,我们也是先行者,利用这些算法我们多次孵化出现象级的场景,在军装照当中,创下了单天1亿人次的使用,前后8亿人晒军装照的记录。通过AI人脸融合算法,我们基于精确的人脸关键点结合用户的人脸光照,刘海等属性,把用户人脸完美的贴合到模板当中,形成自动化的形象。

基于3D的理解主要是给用户能够自动生成一个卡通化的形象,基于脸部的分析3D mesh的技术,对用户脸部进行追踪,生成跟用户脸部匹配的mesh,生成基于用户脸部的贴图,来重现用户的脸部特征。3D模型加上人的脸部特征分析,实时驱动人物3D模型,让实时视频去虚拟形象成为一个图。可以设想一下在不久的将来和好友在视频通话的时候,也许面对的是一个卡通化的形象。

通过细微领域的尝试,我们在视频内容理解,语音理解方面做的一些尝试。这里面主要采用多模态学习的方法。我们传统的视频理解基于有标注的人工标注学习的放入,通过标注嵌入一个模型,模型识别到图片当中,比如说花花草草,猫猫狗狗。或者识别出图片和视频里面的物体是不够的,可能是冷冷冰冰,比如说在配乐的场景,提高出当中的语义协助我们在视频配乐里面提升效果。我们从文本中挖掘语义的标签。得益于结构化的数据还有语义的提取技术,这是首次在这么大数据量的情况下,嵌这样一个模型,而且不需要人工标注,也许未来我们有机会把这些数据能作为另外一个benchmark,从另外一个角度来给视频内容和图片内容提供一些信息的辅助。

基于富文本语义联想的内容理解-让机器真正“理解”

最左边的图,按照传统的文本识别我们更多的识别到有一本书,有文字。通过我们的模型我们可以识别到他是在认真学习。比如说第二张图里面是一个小区的后花园,通过我们的识别,我们可以提取出鸟语花香的语义,这个场景有什么用呢?当用户上传视频的时候可以结合这些语义的提取,能够给用户搭配一个更有趣的一个音乐,让用户在看到这个视频后,联想信息能够跟我们所提取的语义是相匹配的,这是一个能够打造更加有趣的智能配乐。

TTS方面做了尝试,2018年尝试端到端的技术,在性能方面取得一些提升。我们一直在思考有没有可能有一种方式,因为传统的TTS技术需要很长时间的语音的录制和训练过程。有没有一种技术可以更好的服务我们大众的互联网用户,比如说只需要说一句话就能提取出你的音色,提出你的语音。我们团队积累了数万各种发音人的数据,我们嵌一个网络能够提取用户的这些音色的向量,用一些高质量的数据去迁移学习到这些文本之间的映射关系,我们引入多任务学习。不需要训练模型情况下,就可以合成未知发音人的声音,达到零成本的学习效益。也许未来网友给你发生日祝福的时候可能发的是文字,也许用他的话来给你带来的生日祝福,或者你可以在你亲子伴读的时候使用。

讲一下在AI这一块的展望和挑战。随着AI技术的发展,我们相信在它的技术会持续的推进当中。相应的会带来许许多多的挑战,这里简单的讲两个例子,在展望方面,基于GAN讲了很多的能力,在图像的生成上有更多的提升,变得更加的逼真,可能有一些场景出现在你的视频当中。3D重建是我们行业的一个热门方向,目前算法可能只需要一张图片就可以一定程度上重现出现实的场景。在特定的场景,人脸3D重建或者人体重建可以做的更精细化。

这里所带来的挑战,比如说在图像生成技术相应带来的是如何鉴别这里面的真伪,这个需要考量我们在技术上的一些提升。还有就是随着AI和数据的发展,这里面对算力提出了更高的要求,对云的基础架构设施是否能够满足我们当前的这些需求。另外在AI边界和伦理之间存在许许多多的碰撞,未来我们怎么做呢?只要我们善用技术,科技向善,我们一定能解决AI发展所带来的一切问题。

谢谢大家!


原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大会活动|腾讯数字生态大会AI论坛:AI与产业融合进入快车道

    当前AI与产业融合的现状如何?AI落地面临哪些挑战?AI未来会对人类社会生活带来怎样的改变?5月22日,在2019腾讯全球数字生态大会AI专场上,来自AI研发和...

    优图实验室
  • 新闻动态|腾讯优图杰出科学家贾佳亚:当烤红薯也能用到深度学习,AI 的壁垒会在哪?

    AI 产业如今出现一个看似矛盾的现象:算法的开源让人们学习 AI 的门槛降低,但在产业层面,AI 的发展依旧具备明显的壁垒效应。

    优图实验室
  • 大会活动 | 腾讯优图发布四大平台产品,持续开放视觉AI能力

    7月10日,2020世界人工智能大会在上海举行,腾讯优图实验室总经理吴运声发表了“新基建新生态下的计算机视觉”的主题演讲,分享了优图视觉AI技术在工业、教育、泛...

    优图实验室
  • 百度AI加速器首期“毕业典礼”:都有谁?会把AI带向何处?

    把AI喊得最响的百度,于2017年12月,开门集结了21个AI相关项目,并在其后4个月时间中,集训加速,利用百度在AI领域的资源,为创业者加速,把AI技术、产品...

    量子位
  • 中欧国际工商学院经济学与决策科学教授方跃:认知革命中的数据思维与企业转型

    数据猿导读 日前,由数据猿、中欧商学院、腾讯直播共同举办的《中欧微论坛|数据猿·超声波》活动上,中欧国际工商学院经济学与决策科学教授方跃表示,认知革命的真正价值...

    数据猿
  • 那些打着AI万金油旗号的产品欺骗大众,如何识别?

    如今,很多打着AI名号售出的产品都属于万金油系列,没什么实质性的功能。为什么会这样?我们应该如何识别这类AI?

    AI科技大本营
  • 从科技企业的技术驰援,看AI“全链条”抗疫之战

    “复工”在各地陆续开始,要说谁最紧张,产业聚集、流动人口集中地区的主管职能部门无疑在列。

    用户2908108
  • 张宏江:人工智能的长远发展需要有人坐冷板凳

    从金山 CEO 退休两年后,除了在源码资本任职投资合伙人,张宏江又在刚刚成立不久的北京智源人工智能研究院担任首届理事长,致力于推动不同行业分享大数据,让从事基础...

    AI科技大本营
  • 数据先行,迎难而“下”,这才是AI革命的正确打开方式!

    镁客网
  • 人工智能的革命:人类的死或生(7~10)

    Peter Lu

扫码关注云+社区

领取腾讯云代金券