【独家】贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

【新智元导读】 张潼、俞栋之后,腾讯又迎来一名AI大师,计算机视觉的领军者——香港中文大学终身教授贾佳亚正式全职加入。2017年5月13日,在腾讯正式宣布贾佳亚教授的加入前夕,贾教授接受了新智元的独家专访。讲述了他为什么会选择腾讯,又是如何看待从学术到工业界的角色转换问题。他还在专访中聊到了自己的学术生涯,包括在微软三年的实习经历、所培养的学生、以前去年带领团队在ImageNet夺冠等问题。在技术上,贾教授向新智元介绍了他著名的“图像去模糊化”技术,并且谈到了他对计算机视觉行业发展趋势的看法。

2017年5月15日,香港中文大学终身教授贾佳亚博士加盟腾讯优图实验室。作为杰出科学家,贾佳亚教授将负责计算机视觉、图像处理、模式识别、机器学习等人工智能领域的研究,及人工智能与各应用场景结合的深度探索。

这是2017年以来,继张潼、俞栋之后,又一位加入腾讯的重量级人工智能领域顶级专家。

与张潼和俞栋所在的腾讯AI实验室(AI Lab)不同,贾佳亚此次加入的是以计算机视觉见长的腾讯优图实验室。新智元此前曾报道,腾讯优图是腾讯AI的三大核心支柱之一,与微信AI团队和新成立的腾讯AI Lab共同驱动腾讯的 AI 发展。本年度在国际上人脸识别标志性比赛——LFW 和 MegaFace上,腾讯优图都拿到了冠军的成绩。优图实验室创立于2012年,专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地,至今已有近5年的历史。

贾佳亚2004年9月加入香港中文大学(CUHK )计算机科学工程系,2010年升职为副教授,2015年成为教授。贾佳亚教授在大学任职期间发表过逾百篇顶级会议和刊物论文,是前期和中期计算机视觉最著名的专家之一。其中,他和学生发表的Image Smoothing via L0 Gradient Minimization 是 SIGGRAPH Asia 2011 引用最高的论文。他担任计算机视觉和机器学习顶级刊物IEEE Transactions of Pattern Analysis and Machine Intelligence (TPAMI)和International Journal on Computer Vision (IJCV) 的编辑。贾佳亚教授还多次担任国际计算机视觉大会(ICCV)、IEEE国际计算机视觉与模式识别会议(CVPR)的领域主席,以及国际计算影像会议(ICCP) 2013-2017和计算机图形和交互顶级会议(SIGGRAPH)的论文委员会成员。

贾佳亚教授在香港中文大学领导计算机视觉和机器学习研究,其研究专注于图像和视频理解,动态和深度预估、实用优化算法和其他视觉内容的深度学习。他从2000年开始就从事计算机视觉的研究和相关算法研发。加入腾讯前,贾佳亚教授曾与微软研究院、谷歌、高通、英特尔、Adobe等图像和人工智能研究机构开展过深度联合研究工作,也培养出了一批优秀硕士和博士人才,比如商汤科技的CEO徐立博士。

贾教授在图像分析和处理上相当多的一批技术是独有的或者性能超群,其代表工作包括图像去模糊,滤波,图像稀疏处理,多频段图像信号的融合以及增强,大范围运动估计,基于纹理和结构的分层,语义分割。这些成果都发表在业界最有影响力的会议和刊物上,并在现实中进行了技术实现。它们在已搭建的系统中展现了突出的效能。而且它们绝大部分进行了开源,从而可以被广泛的应用于航空,医疗图像,安全管理,机器人设计,气象分析等领域。其中,图像滤波和逆向视觉问题解法被许多高校教科书、课件和开源视觉代码库(包括OpenCV)收录,同时也在视觉商业系统中得到广泛应用。现阶段,其实验室在语义分割、自然语言和视觉联合系统、人像深度处理和几何深度理解等领域均取得重要成果。

腾讯公司副总裁梁柱表示:“贾佳亚教授是人工智能领域的研究专家,我们很高兴能邀请到贾佳亚教授加盟腾讯优图实验室。优图实验室的图像识别、人脸识别技术一直处于国际领先的地位,在人工智能各类世界级的比赛中屡创佳绩。近年来,腾讯依托以社交为核心的丰富应用场景、海量的大数据和强大的云计算能力,在人工智能领域获得了飞速发展。在未来,我们还将持续提升AI的技术能力和应用场景,结合云平台来激发AI的潜力,以科技提升人们的生活品质。”

贾佳亚教授表示:“我很荣幸能够加入腾讯优图实验室。经过近几年发展,优图实验室在人工智能多个领域积累了领先的技术实力和解决方案。特别是在人脸识别领域,优图实验室已多次在MegaFace 、LFW等国际人工智能的权威比赛中刷新世界纪录。视觉识别是人工智能的核心和重要入口,而人工智能的研究必须建立在海量数据基础之上,通过大数据训练来优化算法模型。加入优图实验室之后,我期待能够依托于腾讯社交网络大平台产生的海量数据进行研究。我相信新的机会将随之而来,也希望能不断拓展新的应用场景,让人工智能在现实中对大众产生意义。”

2017年5月13日,在腾讯正式宣布贾佳亚教授的加入前夕,贾教授接受了新智元的独家专访。讲述了他为什么会选择腾讯,又是如何看待从学术到工业界的角色转换问题。他还在专访中聊到了自己的学术生涯、所培养的学生、以前去年带领团队在ImageNet夺冠等问题。在技术上,贾教授向新智元介绍了他著名的“图像去模糊化”技术,并且谈到了他对计算机视觉行业发展趋势的看法。

贾佳亚对新智元表示,与腾讯优图的结合,几乎是一拍即合,自己会全职加入腾讯。而之所以会选择进入工业界,是因为“ 到了一定年龄阶段,会希望追求些不一样的东西。” 在腾讯,他希望让技术能够促进社会进步,产生更大的影响。

谈到角色转换的问题,贾佳亚总结了计算机视觉的三大特点:第一,它基本上是应用驱动的,每一种技术几乎都必须先有应用场景 ;第二,计算机视觉是 AI 里验证结果最直接的 ; 第三,计算机视觉既是一种表达方式,又能有很多其他功能。正是因为这些特点,计算机视觉研究成果在工业界(加上工程化)几乎就能应用 。

他认为:“很多时候我们的研究思维方式非常靠近应用,所以我的角色转变其实不大。当然做好一个产品会有很大一部分用户和市场因素,但是因为在腾讯有大量开发人员,市场和产品经理去把控用户体验,所以对我而言,最大的挑战更多的是进入公司后,去理解公司文化,建立一支适合这个企业的研发队伍”。

此外,他也对新智元表示,许多大师级的学术人才,在进入企业界前,一定要思考 “匹配”的问题,看自己的能力是否与公司的需要匹配,自己的研究周期与企业发展是否匹配。“否则,是不容易走到一起的。”

许多人都不知道,贾佳亚与中国AI领域的“黄埔军校”微软研究院也颇有渊源。博士4年,他有3年的时间都是在位于北京的微软研究院度过的。在那儿,他遇到了对他的人生产生重大影响的导师——沈向洋,不仅在知识和技术上得到了最高水平的训练和锤炼,同时,也学到了做研究的专业态度。他当时与孙剑等计算机视觉领域的顶级学者同时在微软共事,做了许多非常前沿的计算机视觉研究。可以说,在微软的三年,奠定了贾佳亚后来成为计算机领域宗师级教授的坚实基础。他在采访中详细地回忆了自己的这一段经历。

在香港中文大学,贾佳亚培养了“不仅在学术界成为顶梁柱,在产业界也开辟了一片天地”的优秀计算机视觉人才,可谓桃李满天下,这也是“大师”二字的由来。

贾教授在采访中向新智元介绍了去年在 ImageNet 竞赛场景分类项目中夺冠的技术——“基于上下文语义信息的金字塔场景解析框架PSPNet”,以及传统图像处理皇冠上的明珠:图像去模糊技术。

以下是新智元对话贾佳亚教授的文字实录:

为什么选择加入腾讯优图:贾佳亚谈在腾讯的梦想

【新智元】您为什么会选择加入腾讯优图?

【贾佳亚】选择加入腾讯优图,也是因为我做计算机视觉的研究开发已超过15年了,在图像视频领域留下了许多成果,所以其实工业界一直与我有很紧密联系。比如现在学校里很多的视觉研究项目都是业界主动提供给我们,希望我们找到方法,我们也创造了很多在工业界实用的技术。我在香港中文大学的研究组就是以创造新的方法为主要目标的。这是我要加入企业的一个原因。另外,这两年很多公司寻求AI的前沿技术,在这个需求之上,我们也想把多年培养出来的创造性技术,解决新问题的能力发挥到工业中,转化为生产力。优图与我的研究方向非常吻合,所以,我与腾讯优图几乎是一拍即合。因为他们基于多年的积累,在图像、视频上产生了非常大的优势。而且基于腾讯的平台,优图已经走出自己的商业路线,有很多不错的产品和技术转化。腾讯拥有庞大的平台和客户群体,并且提供了几乎所有可以想象的应用场景。记得有人说过,把腾讯拿掉之后,中国就剩不了多少IT了,所以腾讯是非常强大的。因此,我决定全职加入腾讯优图。我的base主要在深圳和香港,也经常会去上海和北京。我十分欢迎在深圳和香港等地的科研人员能够加入我们。

【新智元】您刚提到腾讯的应用场景优势,数据优势是否是一个吸引你的地方?

【贾佳亚】当然。比如优图实验室的图像识别,人脸识别等技术一直处于国际领先的地位,并且已经实现了鉴黄、寻亲、金融等多个领域的产品落地。团队依托以社交为核心的丰富应用场景,海量的大数据和强大的云计算能力,能够在技术的研发上有更多的发展空间。

【新智元】加入腾讯以后,在整个团队配合上有什么计划?

【贾佳亚】腾讯优图和我是有非常好的优势互补效应的。优图很强的技术主要包括人脸识别、 图像分类、鉴黄、OCR等。音频上也有音乐分类、哼唱检索等。优图在这些方向上能做到产品在各个移动和云平台落地。而我之前和最近的研究侧重于自然图像视频的各种智能产生,理解,和增强新技术,比如图像去模糊、图像增强、语义分割,物体检测识别等。我希望能把第一线研究创新的基因在腾讯平台上强化和扩大。我的目标是在团队里提供给尖端视觉科学家和一流研究人员所需的研发环境。我希望这些技术能够产生论文,专利,能够让更多人知道我们创造的技术。我今后会侧重将新技术与工程人员、商业人员的配合,将自研 AI 技术系统化,放到产品里面,让用户看到这些产品,增强用户体验,丰富生活。

【新智元】您之前有一些技术比较出名,比如图像去模糊,会不会在腾讯的产品中采用?

【贾佳亚】不会直接采用,因为涉及专利问题。我的目标是建立一个新的团队,研发新的技术,对应公司内外的需求。比如,我们最近研发了人的整体分割,在CVPR等也有发表的论文,能够自动把一个人的分割出来。这些新技术会被整合到各种平台上去。我们甚至会提供SDK,开放代码。我希望系统化地去建立视觉系统,就像一个拼图,每一个形状都不一样,希望把这些组件拼起来,拼成一个大的图像。我希望在公司内部建立系统化工程,把新技术开放出来。比如我几次在国际各大会议上给大家介绍的一种信号滤波技术(rolling guidance filter),就是一张图像很快处理一下就能直接去除把上面的一些小的纹理或其他不想要的小结构。这个技术不需要深度学习,一行代码就给出非常酷的结果,而且非常快。实际上我们有许多很有趣的新技术和想法,我会花精力在公司内部把这些新技术都整合起来。

另外,今年我们做了一个很有趣的事情:人脸美化的回复( debeautification): 我们希望能够通过AI技术,去退回到人脸美化之前的样子。为什么要做这件事?原因就是我们看到很多新闻说网上照片都很美丽,但是见面后发现落差非常大,甚至引发社会事件。我们就想把美化后的图恢复成它原本的样子。这个以后我再详细介绍。总结一下,我们的研究有的时候比较天马行空,但是能产生意想不到的结果。我希望能把这些新技术通过公司的平台调配需求,产生更大的应用。

【新智元】加入腾讯后的梦想是什么?

【贾佳亚】到了一定年龄阶段,会希望追求些不一样的东西。我也期待有新的挑战。其实在学校里的研究,比较难在非常短期内帮助社会的发展,或者让普通人很快用上这些技术。我的梦想就是让技术快速促进社会进步,产生更大的作用。创业通常前期只能专注一两个方向或者内容,不可能将我们几十个新的技术全部落地。所以我想与产业结合,加入腾讯来广泛开拓不同领域。

从计算机视觉的三大特点谈角色转换:如鱼得水

【新智元】我们都知道腾讯是一家十分看重产品和用户体验的公司,那么从学术研究到企业研发,你怎么克服角色转化,面临的最大挑战是什么?

【贾佳亚】这是一个非常好的问题。我觉得很多人,包括媒体、工业界、学术界,都会认为从学术研究走到企业是一个很大的转变,这是一个非常有意思的论点。其实,我不是这么认为的。我做的方向叫计算机视觉,虽然在AI时代大家都叫AI,但我们一直就是研究计算机视觉。与其他人工智能方向相比,计算机视觉在AI发展过程中有很多的特点,我想总结一下,以此说明为什么很多时候从学术界到工业界的角色转换并不是一个难题。

首先,计算机视觉是一种应用驱动的AI,就是说它的每一种技术几乎都有应用场景。比如,现在很火的人脸识别有大概几十年的历史,做人脸识别不是为了证明这个理论有多了不起,而是希望在各种场景下能够应用上来。举例就是各种软件用人脸登录、安检视频寻找可疑人员等。另外一个例子就是我们做的图像增强,就是为了把夜景图像生成得干净漂亮。这也是因为实际需求的存在,现在用手机拍摄图像,不管芯片的成像能力有多强,还是不可避免会产生一定的问题,比如模糊,噪声,细节丢失等问题,我们计算机视觉的科学家就会想去解决这个问题。在我们计算机视觉领域发表的论文中,第一段介绍中基本都会讲我们为什么要去解决这件问题 , 这就是应用的场景。其后论文才会详述技术上的创新。

举另外一个例子,最近很多手机从一个摄像头变成两个摄像头了,这就可以产生更多的应用。两个摄像头可以实现背景拉近拉远,可以去改变前景和背景结构得到有趣的效果。因为硬件进步出现了这样新的成像装置,计算机视觉就可以被推动,然后科学家研究新的问题,并在过程中产生新的方法。最后研究结果再反馈回整个业界提高成像效果。这是一种有效的正向反馈。这种正反馈极大地推动了整个计算机视觉领域和其它AI的发展,也是AI现在能迅速前进的内在推动力。

第二个特点就是,在整个AI领域,计算机视觉是相对容易验证结果的。深度学习近年第一次证明自己的强大能力就是它在ImageNet被验证能够极大的增加正确率。为什么是在视觉领域?其实很容易理解。举个例子,要判定一张图片包括的是汽车还是人或者两者都有,是没有不确定性的。因此,当一种 AI技术能在计算机视觉里充分验证,它的能力就很有说服力了。在其它领域,事情可能会复杂些。比如语言验证,人类想表达某种意思可能有一百种说法,这相对的就增加了验证的难度,甚至于怎么验证也会是一种研究方向。图像的独特性令到它被直接用在很多技术的第一步验证。

第三个特点,计算机视觉既是一种表达方式,又能产生其他很多功能。这种多样性、可变性,扩展性是令人着迷的。首先它是一种表达方式,比如电影就是这样一种媒介。它可以表达的东西太多。我们甚至观看默片就能知道故事,了解人物表演。视觉是感官里一种非常重要的接收方式。当视觉的AI能力发展之后,它又被赋予了更强大的功能。它可以作为一种工具实现对一个事件的抽象或者提取。比如,交通事故可以通过计算机视觉去自动检测,自动驾驶也需要计算机视觉理解车的周围环境,来实现后一步的判断。因此,计算机视觉除了是一种表达方式之外,在内容上可以产生判别、理解或者抽象提取的能力。

计算机视觉其实还是一种传输手段。我们在电脑上看的一张图,正常情况下是可以利用网络传输传到我们的手机上面。但如果没有网络,我们也可以利用计算机视觉技术来传输信息。我们只要拿手机对着屏幕拍张照片,利用文字识别,场景识别,图像识别,在空间里无网络,无接触的就实现了信息传输。

基于计算机视觉的3个特点,我们组里很多的研究成果加上一定的工程化之后,在工业界的各个的领域几乎都可以直接应用。比如,我们之前做过非常快速的图像放大。一张图像分辨率很小的时候,在网络上传输速度很快,然后到了本地端用户又能够迅速将其放大,在手机上看到足够多的细节。

这么多年我一直在思考,我们有这么多技术和新思维,一定能对业界有帮助。我们能解决技术可行性、准确率、速度等问题。所以加入企业对于我们这些本身有很多技术积累的研发技术人员来说是如鱼得水。底层工程人员会考虑工程层面的问题,比如把代码循环打开,利用其他编程语言把速度加快,但这可能解决不了根本性的算法问题。一个技术不可用可能是本身使用的算法太复杂。若我们能够减小空间,降低参数维度,也许就能够在高层算法上一下子把整体解决方案拉到贴近使用的程度,最后如果还差了大概30%的速度,再让工程人员调节代码,这就会令到解决问题更加精准。

最后我想总结一下,因为很多时候我们的研究思维方式非常靠近应用,所以我的角色转变其实不大。当然做好一个产品会很大一部分取决于用户和市场因素,但是因为在腾讯有大量开发人员,市场和产品经理去把控用户体验,所以对我而言,最大的挑战更多的是进入公司后,去理解公司文化,建立一支适合这个企业的研发队伍。

如何看待学术精英创业或加入工业界:说明市场有需求,要做好匹配,但我不适合创业

【新智元】现在很多人从学术界来到了企业界,特别是AI火了以后,就出现了大量的顶级人才加入创业公司和大公司的情况,您怎么看?

【贾佳亚】大量学术精英创业是一个好现象,说明市场有机会、有需求。但是我不去创业是因为我的优势是多年的技术积累,对于技术发展的敏感度,和对于技术发展前沿的理解。创业需要把一两个应用迅速的转化成有市场的产品和平台。这需要创业者花很多精力学习怎么去跟投资人打交道,怎么去做市场营销,怎么去把产品卖出去。在这几点上我并不比一个刚毕业的学生更擅长。加入一个成熟的公司能够最小化我花在商业运营上的精力。我是鼓励年轻人创业的,我们组已经的毕业的同学们也确实做的很好。

另外,大量的学术大师进入企业界也是好事情。在10年前或者15年前,大部分企业对学术发展现状并不了解,现在AI时代使新技术变成推动生产力或者产品发展的核心内容。但是,我认为任何专家去企业界一定要合理匹配。举个例子,有的科学家一直做理论推导,这在研究领域是很重要的,但是如果公司希望他们的加入直接推动产品应用发展,这就可能产生不适应。一个科学家开始从事以前没做过的事情,这样去公司一定非常艰难。再比如,很多学术人员是做中长期的研究需要3到5年时间。但是,可能在这几年时间内,一个估值1000万的企业都已经变成10亿或者是100亿了,这也是时间上的不匹配。我觉得大家如果在匹配这方面做好功课,企业肯定是能够适应的。

【新智元】腾讯从 2015 年开始,就一直强调AI的重要性,做了很多布局,您认为AI 对腾讯的重要性体现在哪些地方?

【贾佳亚】不仅仅是腾讯,全球各大企业都在进行非常大的投入。 对于高科技人才的引进也十分重视,这说明绝大部分企业都看准这一时机扩张,在AI的投入也是有理由的。这我就不多讲了,主要是基于大量科学家的正反馈和公司应用层面上的投入产出的比较,再综合技术层面和经济层面的分析。接下来几年,AI不仅可以产生新的效果,新的应用,也使得流程被自动化,减少公司的支出。如果现在不投入,任何一个企业以后很有可能会受制于人。

现在中美的AI技术新创公司在几年时间之内可以从很小的一个规模增长到几十亿的估值,这说明一个史无前例的非物理技术变革开始了。为什么叫非物理性?以前几乎所有的技术革命都是由硬件开始的,比如蒸汽机的发明,电力的使用。一个非物理技术产生的变革没人知道会产生多大影响。所以腾讯的AI投入,实际上是带领了大环境下国内国外的IT和非IT企业对这一变化的认识。当汽车制造、金融、建筑、医疗都开始在进入这种非物理性技术变革的时候,就是一个新时代要开始了。

计算机视觉大师养成记:微软那三年及影响一生的导师沈向洋

【新智元】您为什么当时会选择计算机视觉,毕竟当时这个也不算是一个特别热门的领域?

【贾佳亚】你说得很好。不是不热门,当时计算机视觉是一个非常冷的行业,几乎没有人知道计算机视觉是干什么的。我本科在复旦,2000年通过国家教育部计划来到香港。选专业的时候也没想太多,当时最热门的专业我记得是网络和数据库。我之所以会选择视觉,其实原因很简单,就是喜欢看到直观结果。数据库类的研究结果是图表或者曲线表示的。这对我而言,不直接,看完这样的结果我不觉得有趣。

我后来在视觉领域,每一个技术都希望能做出好的效果。所以能看到效果我就很开心,这证明了自己做的东西真的能够把这张图片做得跟原来不一样,能够产生一些新的应用出来。 所以视觉研究对我自己的心理的满足感是蛮强的。

我后来四年就博士毕业,其中三年都在微软,就是现在在北京的微软亚洲研究院。在很长一段时间,微软亚洲研究院基本上就是一个做研究的圣地。当时我跟着Harry(沈向洋博士),他是我在微软的直接导师,后来也是我博士论文答辩委员会成员。当时也和孙剑博士一起探讨问题,出了一系列论文。

我从2001年到2004年那个时候就已经开始做一些非常有趣的图像的项目,比如说Matting,就是把一张图里面的物体在保持所有边缘细节的情况下分离出来。现在想想,这已经是十几年前的事了。即使现在看效果,还是觉得非常有趣。当时研究的还有Blending,就是图像的融合。这些都是比较超前改变图像内容的研究。这些在Siggraph上发表的文章,我还是记忆犹新。后来我毕业后就加入了香港中文大学任职,并开创了自己的视觉研究组。

【新智元】当时没有想过留在微软吗?

【贾佳亚】肯定想留下啊。但另一方面我希望能自己能从入学到毕业完整的指导硕士,博士学生。而且我也喜欢上课,把我的知识传授给他人。我的课程现在在系里面是最受欢迎的课程之一。我会讲很多最新的技术发展,中间再穿插我们领域的历史轶事,让学生听得开心有收获。考虑到我在大学能在两方面同时兼顾:一方面教育,一方面做研究,我就留在了香港中文大学。

【新智元】在您个人的学术生涯里面有没有一个印象深刻的人,或者是对你影响比较大的?

【贾佳亚】我研究生涯里面,最紧张最累的时候就是那几年在微软。那个时候能够出Siggraph论文的,在中国基本上就只有微软研究院了。我们每年做Siggraph。虽然研究是脑力激荡,但是最终我们还是把做项目弄成了体力活,就看谁的体力好,不生病。

我觉得在当时的情况下,做一篇论文,不会比做产品轻松。我们在最后几天,一天可能只睡5个小时。每天几乎时时刻刻都在写code、跑code,然后再测试各种环境,一天4,5顿饭,因为有夜宵。如果有些同学感冒了,休息几天,这个项目可能就坚持不下去了。当年这种打硬仗的作风确实很了不起,出了很多令人惊叹的成果。我记得当时沈向洋博士跟我们一起做项目。他作为一个主管,很忙,但是坚持和我们探讨项目改论文,经常跟我们一起忙到晚上很晚才回家。第二天早上起来,就和跟我们继续讨论。当时我作为一个学生,看到导师做事态度极其认真,受了很大触动,知道了就叫做专业。所以后来我到了港中大以后,我就秉承了这个习惯——做事情态度要认真。2007年,我做大手术住进了医院。第三天我就开始帮我学生改论文,因为当时离CVPR截稿日期很近了。我觉得能有今天学术上的积累,首先就是依靠自身的能力想问题,做研究,和解决困难。第二个是态度。其实不管是做学问也好,做产品也好,这第二点都很重要。

桃李满天下:我的学生告诉我他被聘为正教授,当时我还是副教授

【新智元】您在港中大也培养了很多优秀的人才,这其中有没有你觉得特别让你印象深刻的学生?

【贾佳亚】我给你举个例子,我第一年我来中大,没有学生,到了2005年我正式招了第一个硕士学生叫Wayne Xiong。他毕业的时候作为一个硕士,已经出了好几篇CVPR级别的论文。他毕业的时候加入的微软。2016年年底的时候,我突然收到他的一封信,他说,贾老师,我在微软工作了10年之后,我终于又出了一篇论文。他之前在微软一直做一些项目开发的工作。然后,10年后的他,居然又在学术上做出了一个了不起的成果:10月18日微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现。

看到这封信我非常惊讶。真的,我觉得有的时候培养一个学生不仅仅是论文。最重要的是培养他们对问题的理解、对问题的看法,能够独立解决问题的能力。当他们学会这几点,在任何时候他们都能给你一些惊喜。Wayne能够在十年之后和团队合作做出这么一篇高质量的文章,让我觉得这么多年做教授真值了: 这十多年在港中文大学做教授真正的回报其实不在自己,而是我的学生能够有什么成就。

还有一个是商汤的CEO徐立,徐立是一个非常聪明的人。不只是我们组里面,他可以说是我见过的所有学生里最聪明的人之一。他能够触类旁通,从细节上理解问题。他在我们组的时候从最早需要几个月做完一篇论文到一个星期解决战斗就充分证明了他的能力。他也是让我感到非常自豪的一个学生。

还有最后一个有趣的事。介绍一下我的另一个学生,卢策吾博士,他现在是上海交通大学的教授,此前也曾在斯坦福大学李飞飞组进行过访问。为什么说有趣呢?我常跟人说我还在中文大学做副教授的时候,他毕业了,然后就得到了交大教授的头衔。他也是我引以为豪的学生,是我教育付出的回报。

其实,并不是说我们组有多了不起(当然我很希望自己的技术了不起),但是确实学生的成长是一个研究组能发展的动力。我期望我的学生在学术界做顶梁柱,在工业界也有自己的一片天地。教育确实能让我自豪。

【新智元】您的学生很多去了学术界也有工业界,还有一些去了基金银行,你怎么看待这些方向?

【贾佳亚】说点实在的,进银行的大部分都是没赶上时候。因为当时银行待遇还是很好的。徐立有耐性就抓住了机遇。现在我相信自己组里不会有学生去银行了。

【新智元】我们谈一下计算机视觉的顶级会议,就像刚才您说的Siggraph还有CVPR。您在上面都非常活跃,您觉得这些会议对产业的影响大吗?

【贾佳亚】视觉会议影响越来越大。举个例子,前30年前的CVPR,基本上就是研究人员,学生之间的交流。一直CVPR都是一个偏重于学术交流的一个场所,这两年基本上所有大公司会赞助这些会议,同时会来展示自己的技术,跟全世界做视觉技术的学者交流。现在CVPR和ICCV已经变成工业界和学术界沟通的最好场所之一了。

ImageNet夺冠技术详解:基于上下文语义信息的金字塔场景解析框架PSPNet

【新智元】去年ImageNet比赛中,您的团队拿下了Scene Parsing的冠军,能详细介绍一下这一成果吗?

【贾佳亚】Scene Parsing中文解释为场景解析,也称为语义分割。这个任务的目标是对于图像中的每个像素都需要预测出其所对应的类别,比如天空、道路、汽车和人等。对于复杂的场景,这种像素级别的预测任务是非常具有挑战性的,同时,这么透彻的场景理解具有非常广泛的应用,比如自动驾驶、机器人感知等领域。

2016 年的 ImageNet Scene Parsing 比赛吸引了全世界来自学术界和工业界的共22支队伍参加,各个队伍需要在比赛限定的三个月时间内提出算法,在给定的数据集上做场景解析。这次比赛使用的数据集涵盖更为复杂的场景和更多更为细致的类别,有高达一千多个复杂场景比如城市道路,商场、卧室、公园等,和150个类别如行人、阶梯、床、数目等,这也增加了比赛的挑战性。在最终所有队伍提交的共75份预测结果中,我们提出的基于上下文语义信息的金字塔场景解析框架PSPNet脱颖而出,获得了本次比赛的冠军并被邀请到ImageNet总结现场 (ILSVRC) 进行演讲。同时,我们的方法在常用的语义分割数据集PSACAL VOC 2012和最近新提出的城市道路场景理解数据集Cityscapes上均超过了以往最佳方法,获得了第一的位置。

为了促进领域的发展,我们在github上公布了我们的代码和模型。我们的方法获得了极大的关注,后面有很多的研究工作采用了我们的方法来帮助改进其他任务,比如实例级别的语义分割。

Github link: https://github.com/hszhao/PSPNet

传统图像处理皇冠上的明珠:图像去模糊技术代表人物

【新智元】您是“图像去模糊技术”的先锋,也是领军人物,毫无疑问在这项技术上拥有很大的发言权。有人说,这是计算机视觉领域的最根本问题。能否具体介绍一下,这一技术的具体实现过程是怎么样的?这一技术对计算机视觉的贡献在于什么地方?具体可应用在哪些方面?

【贾佳亚】图像去模糊是传统图像处理皇冠上的明珠。它代表了一个传统信号处理里面最难的一个问题之一。一个被卷积过的信号(在图像上就是失焦或者物体运动)能不能恢复成原来的样子(清晰图)是一直有争议的问题。而在2006年以前20至30年的时间里基本没有办法能甚至大概估计这个卷积程度。我们从2007年开始研究这个问题,一直到2015年,历经几届同学基本开创了一整套教科书式的新方法来解决这个问题。我们从简单的模糊,到“模糊到整张图像都看不见了”都能恢复,我们也把恢复一张照片的计算时间从几十分钟缩减到到几秒钟。我们还把参数数量从几十个降到只有一个。我们提供了整套的实验性代码和商业软件。虽然这个方向已经不是我们的重心了,但是它是我们对图像信号的理解变得非常深刻。也让我们能用非常严谨的数学和优化模型来解决别的问题。

【新智元】最后, 除了深度学习,还有哪些技术对于计算机视觉来说是比较关键的?您个人认为计算机视觉接下来的研究重点会集中在哪一块?比较容易突破的地方在哪?

【贾佳亚】计算机视觉的处理方法,首先传统几何,然后是概率方法,现在到了深度学习。现在很多视觉任务只要数据足够,连几何数学模型都不需要了。但是如何让传统几何,物理关系与深度框架结合还是一个很大的问题。长远来看还是有很多要解决的内容。

接下来研究方向很多 :生成模型,迁移学习,无监督学习,少样本甚至无样本学习都是方向。以后我会出文来详述这块内容。在计算机视觉上,还是有两种方向。1. 效果(提取,融合,改变色调);2. 判别。这两者会相互促进。我们将会在企业平台上验证我们的技术。这应该是这个AI时代新的一种研究方式。 【End】

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-05-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

【大咖说】英特尔首席工程师:大数据是上帝智能

本文作者:吴甘沙 全文3214字,建议阅读时间:5分钟 上期回顾:【大咖说】吴军:数据为王和机器智能的时代 一、大数据之道 我认为把一件事情讲清楚,就要从这五个...

3596
来自专栏Crossin的编程教室

廖雪峰大神13个案例带你全面入门人工智能!

现在互联网上广为流传的[18届互联网校招薪酬表],震惊了还在敲代码的小编我,给你们看看这张高薪表 ??

965
来自专栏大数据文摘

2小时, 从权游到自动驾驶, 英伟达创始人黄仁勋北京演讲说得最多的是“省钱”!(精华ppt)

1211
来自专栏AI科技评论

观点 | 集齐叶荫宇、蓝光辉、陈溪、李建、王子卓的大牛圆桌会,关于算法优化他们都聊了什么

6月24日下午,钛媒体和杉数科技主办的2017 AI 大师论坛在京举行,论坛邀请了五位算法优化、机器学习领域的顶尖教授、学者出席并发表学术演讲,他们分别是斯坦福...

3556
来自专栏AI科技大本营的专栏

机器学习依然奇货可居,但不是只有博士才能玩得转

【AI100 导读】AI100 正在播出 Jeremy Howard 教授讲授的 Fast.ai 课程。最近,Fast.ai 的另一位创始人 Rachel Th...

3815
来自专栏大数据文摘

李飞飞四大视角看视觉智能:AI会改变世界,谁会改变AI(完整演讲+PPT)

2305
来自专栏机器之心

专访 | 网易有道 CEO 周枫:需求为先的 AI 技术赋能

机器之心原创 作者:邱陆陆 机器翻译领域正经历又一次骤雨疾风般的变革。2014 年,Yoshua Bengio 组做出了第一个循环网络编码器-解码器神经机器翻译...

3408
来自专栏灯塔大数据

经验谈丨如何在一年之内成为一名数据挖掘工程师?

? ? 不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。 ? ? 所需要的技能 ? 做数据分析,统计的知识肯定是需要的,E...

3365
来自专栏镁客网

「深度」科学家眼中完美的计算机长什么样?

1563
来自专栏新智元

中国常春藤联盟院校都参与,腾讯广告算法大赛30万大奖出炉!

【新智元导读】7月30日,2018腾讯广告算法大赛决赛结果出炉:来自吉林大学、哈工大和北邮同学组建的“葛文强”队夺得大赛冠军,赢得30万元奖金!这次大赛赛题是L...

853

扫码关注云+社区