数学和编程能力怎么回事,马维英说这是字节跳动AI Lab招人的首要准则

在开放日上,深信服总代,现场Demo 展现了许多熟悉而又炫酷的应用。你知道怎样操作聚类算法和CNN 从短视频从抽取最悦目的小姐姐么?你知道怎样用单摄手机拍出柔顺的配景虚化图么?这些可能用耳熟能详的算法就能完成,只不外尝试室会将它们做到极致并嵌入到APP 中。

逛完Demo 展示后,马维英介绍了许多尝试室的具体信息,包罗尝试室的方针、成长环境和突出成镜寥。马维英暗示AI Lab 的方针是为今日头条和抖音等产物提供焦点技术支持,并满足此刻到未来2-5 年的产物和业务成长需要。

有这么优秀的科学家和资源,你想不想来局面试?马维英随后就介绍了AI 尝试室的招人经验,所以你的数学和代码都筹备好了么?

数学足够好是做AI 研究的根本

从微软到今日头条,马维英的「看人」技能很是熟练,他会比力出格地调查应聘者的各项素质。在开放日上,他也分享了AI Lab 及小我私家面试的择人准则。马维英暗示首先会考虑应聘者的数学根本是不长短常好,是不是能深入了解问题的本质。因此应聘者的数学功底要好,对数学模型有比力好的直觉和理解。也就是说应聘者不能只是会简简单单地应用,把模型或算法看成一个黑箱进行调参,而不了解具体历程。如果有比力好的数学根本,那么模型的理论历程、最优化要领、损失函数调优等都可以结合实际问题进行修正,从而得到更好的性能。

其次马维英会比力垂青工程实践能力,所以AI Lab 这边也会考虑应聘者的编程能力。马维英暗示我们经常会有很是好的想法,但很可能没有实践能力,这是不足的。最后,马维英还会考察应聘者的态度,好比说团队相助、人际相同和表达能力等,这是一些和软素质比力相关的对象。

而从小我私家角度来看,马维英说:「其实我这么多年招了这么多人,在面试中会很是重视眼神的交流。在面试历程中,我或许通过十多分钟就能判断面试者的思维是不是比力火速、答复历程中是不是比力坦诚等。因为有大量的经验,我通过对话可以看到面试者不太容易看到的一面。」

炫酷的算法应用

有数学还不足,你需要把它做成产物,所以你可以先看看AI Lab 做出来的Demo。其实它们许多都已经应用到实际产物中,例如2018 年世界杯期间接入了今日头条直播间的视频阐明、接入抖音的视频内容审核、嵌入西瓜视频的封面生成等,不外这里只重点介绍了视频理解与配景虚化两种应用。

曾经配景虚化只是单反的专利,通过大光圈得到像奶油般柔滑的配景。虽然此刻手机也可以借助双摄像头完成配景虚化,但如果只有单摄像头或单张图片,又如何借助算法实现配景虚化呢。字节跳动AI 尝试室展示了这样一种算法,它可以预测高清图像的「深度信息」,也就是从近到远区分前景与配景。有了这种深度信息,我们就能很自然地生成对应的配景虚化图像。

如下所示,直观而言模型首先会将高清图压缩为低清输入图,然后使用深度残差网络抽取到深度图,这里先压缩为低清图再做卷积运算可以大大降低计算力。然后我们可以按照深度图和低清输入图渲染低清配景虚化图,并在最后操作高清原图、低清输入图、深度图和低清配景虚化图构建高清配景虚化图。这里在训练历程中起到监督感化的是深度图,模型会尽可能正确预测整张图的深度信息,后头按照深度信息和原图生成配景虚化图就只是合成历程了。

其实预测深度图有点类似于图像支解任务,只不外这种逐像素的分类问题预测的是所有像素离镜头的距离。具体而言如上图绿色的Depth Prediction 模块所示,模型不只会使用全连接网络直接预测深度,同时还会使用特别的前景支解任务得到更准确的支解界限线。字节跳动AI 尝试室在现场展示了这一要领的实际效果,固然不能说完美,但一般人是看不出问题的。

除了图像,视频处理惩罚也有很是有意思的应用。一般在上传视频到抖音或西瓜视频后,我们但愿能有一张悦目的封面,因为大度的事物总是能吸引别人点开视频。但是机器学习系统能帮我们挑选出最大度的封面吗?答案是可以的,字节跳动尝试室展示的这个应用甚至可以从视频中选出最悦目的视频帧,并裁剪为符合的巨细。

下图展示了挑选封面的主要做法,当我们上传一段视频后,模型首先会对差异的视频帧做一个聚类处理惩罚。因为视频是持续的图像,聚类历程能将类似的视频帧都聚在一起,因此从差异的集群采样一些视频帧就能挑选出有代表性的图像。然后把这些图像馈送到深度卷积神经网络并怀抱每一张图像的质量,这样就能挑选出最「大度」的图像。最后只要进行适本地裁剪就行了,虽然这样的裁剪也会尽可能保存主体。

在现场Demo 展示中,应用可以快速揣度出短视频中质量最高的图像,它会给出评分前三的视频帧。除此之外,NAS存储,字节跳动AI 尝试室还能操作深度卷积神经网络抽取要害视频片段,并总结为更精简的短视频。

现场Demo 展示另有许多炫酷的应用与要领,例如在足球直播中,尝试室构建的系统能追踪球员与足球,并预计相机地址的位置及拍摄的球场区域。这一系统在2018 年世界杯期间接入了今日头条客户端的直播间,它还能检测出色片段,并为Xiaoming Bot 写作机器人提供图像素材。

其实Demo 中的许多应用都需要陈设到移动端,例如给人脸加各类特效的激萌或抖音等。为此,尝试室展示了一种快速轻量级的人脸识别要领。他们会使用经量化的修正版MobileNet V2,并回收常识蒸馏要领从预训练的大模型中学习更优秀的精炼模型。因此在实际应用中能以毫秒级的延迟完成人脸识别任务,而对人脸再加特效也就很是迅速了。

经过这么多的展示,总的而言字节跳动有很是多优秀的产物,而这些产物正需要新兴的机器学习乃至深度学习技术提供更多「炫酷」的成果。

原文链接:http://www.yixiin.com/news/kejixinwen/201811/yxw3346843.html

编辑于

IE资讯

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 学术盛宴:微软亚洲研究院CVPR 2017论文分享会全情回顾

机器之心原创 作者:Smith 今年 7 月,世界顶级计算机视觉会议 CVPR(计算机视觉与模式识别会议)将在美国夏威夷举行。在此之前,「微软亚洲研究院创研论坛...

52860
来自专栏华章科技

干货 :数据挖掘中易犯的11大错误

5. 使用了未来的信息(Accept Leaks from the Future)

10120
来自专栏龙行天下CSIEM

科学瞎想系列之五十九 变频调速与节能

节能是当今的热门话题之一,所谓节能就是达到同样的目的和效果,所消耗的能量尽量减少。节能的技术不胜枚举,变频调速就是最常见的一种。我们先看看变频调速是怎么节能的。...

30450
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[5.7]:受限玻尔兹曼机——例子介绍

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会每天在公众号中推送一到两节课,并且对视频中的 PPT 进行讲解。课后,我们会设计一...

29460
来自专栏AI科技评论

学界 | 联合哈佛大学,Google 要用人工智能来预测地震余震

雷锋网消息,近日,来自 Google 人工智能部门和哈佛大学的研究人员已经建立了一个人工智能模型,能够预测大地震后长达一年的余震位置。该模型训练了近几十年来的 ...

8620
来自专栏机器人网

技术猿 | 技术牛人讲解手势识别技术

---- 手势识别大家并不陌生,想得到的是二维手型识别、二维手势识别、三维手势识别这几个名词,但是到底手势识别技术是什么?怎么定义的?又是如何工作的呢? ...

65950
来自专栏企鹅号快讯

数据挖掘中最易栽的十个大坑

欢迎关注数据超市微信公众号 按照 Elder 博士的总结,这 10 大易犯错误包括: 1. 太关注训练( Focus on Training ) 2. 只依赖一...

301120
来自专栏量子位

2018谷歌学术影响因子发布:NIPS首次跃进Top 100,CVPR排名泛AI领域第一

刚刚,谷歌发布了2018年最新版学术指标(Google Scholar Metrics,GSM)榜单。通过综合衡量学术会议和期刊论文中已发表的论文,谷歌对学术出...

46000
来自专栏量子位

自动驾驶感知训练指南:不许你歧视车道线,那也是路面的一部分

感知,大概就是感受到周遭正在发生什么,的一种能力。这项技能对自动驾驶来说太重要了。

16810
来自专栏CDA数据分析师

数据挖掘中最易犯的10个错误,请绕行!

按照 Elder 博士的总结,这 10 大易犯错误包括: 0、缺乏数据( Lack Data ) 1. 太关注训练( Focus on Training ) 2...

20390

扫码关注云+社区

领取腾讯云代金券