机器之心原创
作者:Tony Peng
这不是石建萍第一次来 CVPR 了。过去这八年,她几乎没落下过一届,倒也习惯了每年办一次美国签证。只不过,这么多年以来,参加 CVPR 的身份却在不断变化:从一个本科生,到博士生,到研究员,再到如今商汤科技的研究总监。
她今年带来了五篇 CVPR 论文,其中一篇 oral 和两篇 spotlight,这个数量已经算是相当出色。商汤科技今年也破纪录地入选了 44 篇论文,仅此于谷歌的 45 篇。工业界的一家公司有 40 多篇论文入选 CVPR,这在过去绝对是难以想象的。
过去的十年里,CVPR 变了许多。曾经在学术界孤芳自赏的计算机视觉,如今走出了象牙塔,成为聚光灯下最璀璨的科技新星。会议的主角,从当年的向量机,到今天大行其道的深度学习;2010 年出世的 ImageNet 挑战赛 ILSVRC ,也在去年画上了一个句号……
十年前不过 1500 人的参会规模,今年已经超过了 6500 人;当年还来参会的学生们,现在不少都是工业界的高级研究员或是首席科学家……
多年的变迁,其中有委员会的推波助澜,也是时代变迁的必然结果。大部分人对这些变化欢欣鼓舞,也有不少人患得患失。这其中的故事,值得我们去回溯。
懵懂的华人学者
2011 年,即将从浙江大学竺可桢学院大四毕业的石建萍收到了来自 CVPR 委员会的邮件:恭喜您,您的论文入选了今年的 oral presentation(论文演讲报告)。这让她可激动坏了。
CVPR,全称 IEEE 国际计算机视觉与模式识别会议,在计算机视觉领域是和 ICCV、ECCV 并称的三大顶尖会议。计算机学科的发展速度很快,前沿更新往往是日新月异,相比于 1-2 年才能面世的期刊,学者们都倾向于将论文投至年度学术会议。
入选 oral 意味着你的论文不仅受到了委员会的极大认可,还可以在参会者面前做 15-20 分钟的演讲报告(现在时间都缩短了)。CVPR 的总体论文录取率在 25%—30%,入选 oral 的录取率不超过 5%(2011 年为 3.5%),剩下的都是 poster(论文海报),以及在 2016 年才出现的第三种形式 spotlight,即简短的演讲报告。
据不完全统计,石建萍可能是当时国内第一个论文入选 CVPR Oral 的本科生。她研究的课题是为A Non-Convex Relaxation Approach to Sparse Dictionary Learning。Sparce Dictionary Learning 在当时还是比较主流的研究课题(以基本元素的线性组合以及这些基本元素本身的形式找到输入数据的稀疏表示,也称为稀疏编码)。不过,深度学习到来后,这些方法都没有容身之处了。
CVPR 是石建萍第一次接触国际顶尖会议。办妥了签证,她就准备动身前往美国。
那年的 CVPR 刚刚从前一年的旧金山来到了美国的内陆城市科罗拉多,参会者也从前一年的 2000 人掉到了 1000 多人。不比今天的 CVPR 要选在某某会议中心,那年的规格在一家皇冠假日酒店办也就足够了。酒店里的两个 Ballroom 被用作 oral,一楼的另外三个房间用来展示 poster,酒店零星地摆着一些来自工业界公司的展台,几张小桌子拼拼凑凑,上面叠放着招人启示。
多年来,CVPR 的日程也一直如此:周二到周四是大会正式日,周一和周五、甚至是周六则是 Workshop 和 Tutorials。
石建萍的 oral 被安排在周二中午,倒也一切顺利。剩下的时间,她就用来看 poster。那时候接收的论文也不多,一个半小时看个 40 多篇,不过因为是第一次来,大多她也看不太懂。
石建萍在 CVPR 2011 的 oral 视频截图。
在 2011 年以前,即使是国内一流的学术机构,包括清华、浙大和中科院自动化所,当时能投中 CVPR 论文的并不多。不是因为国内学者们的研究能力不足,而是在 CVPR 上投中论文,需要许多「门道」:选题是否合适?英文写作是否规范?实验该怎么做?当时的国内学术机构缺乏海归学者和相应的学术环境,这让他们往往把不准国际会议的脉。
CVPR 2017 的领域主席、如今在俄勒冈州立大学任教的李伏欣,回忆起 2008 年以前在自动化所就读博士的场景时,感慨道,「那时候许多同学的论文英文写作还都是我改的。大家缺乏专业的学术训练,不了解如何把握实验设计和论文写作中的各种细节。」
李伏欣还谈到了当年写论文的一个细节,「我刚出国的时候,当时写论文被改的最多的就是『get』改成『obtain』,『to do something』改成『in order to do something』,看起来是一样的东西,但就是口语和书面语的区别。」
另一个值得一提的原因是:直到中国计算机协会在 2010 年左右(具体时间无法考证)将 CVPR 定为 A 级会议之前,国内学术机构对 CVPR 也没有那么重视。
微软亚洲研究院(简称微软亚研)和中国香港中文大学多媒体实验室(简称港中大实验室)是当时国内计算机视觉的两大重镇。2009 年 CVPR 的最佳论文便出自这两家学术机构之手,论文的第一作者何恺明此后又带来了残差网络 ResNet,也因此获得了 CVPR 2016 的最佳论文,这已经是后话了。
石建萍是幸运的,当时浙江大学空降了一位海归学者——来自加州大学伯克利分校的张志华。据石回忆,张志华是一心做纯科研的学者,极力推荐学生们读数学的书,也不让他们去做和项目相关的东西。后来,张志华先后在上海交大和北京大学任教,如今是北京大学数学科学学院教授。
张志华的引路,让石建萍与计算机视觉结缘。尽管当时为她写推荐信的老师曾劝她学习比较火的领域,比如数据挖掘(data mining),但石建萍还是选择了当时中国计算机视觉领域的重镇——中国香港中文大学,并投身计算机视觉系的贾佳亚教授门下,后者在 2017 年加入腾讯任优图实验室杰出科学家。
汤晓鸥教授的前瞻
时间来到 2012 年,多伦多大学教授、被誉为「深度学习之父」的 Geoffry Hinton 和他的学生们带着 AlexNet 在那一年的 ImageNet ILSVRC 挑战赛上技压群雄,top5 错误率比第二名低了足足 10%。这篇被 NIPS 2012 收录的论文也被认为是开启深度学习热潮的一块里程碑。
可在当时,将深度学习应用到计算机视觉的并不只有 Hinton 组。2011 年,当时还在斯坦福大学任教的吴恩达联合 Jeff Dean 和 Greg Corrado 在谷歌创立了 Google X 项目,用 16000 个中央处理器核心,通过深度神经网络,让该系统仅通过收看大量的 Youtube 视频来识别猫。
而在中国,由汤晓鸥教授所带领的中国香港中文大学实验室也在 2011 年起开始探索深度学习在人脸识别方面的可能性。
林达华是如今中国香港中文大学实验室的主任。2005 年从中科大毕业之后,林达华曾经在港中大实验室就读硕士学位,和汤教授有了一段师生缘。2007 年,他获得全额奖学金到 MIT 攻读计算机科学博士学位。2014 年,林达华受汤教授的邀请回到了港中大任教并成为商汤科技的创始成员。
据他回忆,港中大实验室研究人脸识别可以追溯到 2000 年。「我在 2005 年读硕士的时候,当时我们主要是用子空间分析——一种线性模型的方法来做人脸识别,也取得了一些成果,但是直到深度学习之前,性能水平始终难以做到商用。」
转机出现在 2011 年,当时在微软亚研的邓力教授(如今是美国金融巨头 Citadel 的首席人工智能官)率先将深度学习应用到了语音识别领域,并取得了显著的性能提升。这让同样在微软亚研的汤教授嗅到了在视觉领域掀起深度学习革命的机会。
然而,转型并不容易。当时的学术界对于深度学习抱有极大的怀疑态度。神经网络早在 80 年代就出现了,之所以多年来不受重用是因为其在性能上并没有优势可言,且神经网络的黑箱属性让研究员难以理解网络的学习和决策过程。
此外,将过去的工作推翻全面接受深度学习,花费大量的资金购买 GPU 建立并行算力集群,并决定完全自主研发深度学习平台,对汤教授来说这是需要承担风险的。许多后辈的学者都评价汤教授是「一位具有前瞻性的学者,他当时在深度学习上的探索为之后的许多工作都奠定了基础。」
巨大的投入很快取得了回报。2011—2013 年间,在计算机视觉领域两大顶级会议 ICCV 和 CVPR 上,汤教授组一共发表了 14 篇深度学习论文,占据全世界在这两个会议上深度学习论文总数(29 篇)的近一半。
到了 2014 年 6 月,汤教授带领港中大多媒体实验室发表了 DeepID 系列算法,实现人脸识别准确率达 98.52%,超越 Facebook,在全球首次突破人眼识别能力。该论文也被 CVPR 2014 所收录。
虽然这些成绩还远远不够,但学术界看到了人脸识别在商用上的可能性。
CVPR 也在 2014 和 2015 年开始全面接受深度学习。在 CVPR 2016,据不完全统计,将近 60% 的论文都和深度学习相关,口头报告更是接近 100% 来自深度学习。
当时在港中大读博士的石建萍,见识到了深度学习和以往算法的不同。」深度学习确实把很多东西做成了,以前可能我们流行了很多不同的技术方案,但是大家都还是在这个水平线上打转,没有一个特别大的一个突破,但是深度学习直接很多问题的一个准确率一下抬高了一个档次。」
嗅到了商用机会的汤教授,带着昔日弟子王晓刚和一批港中大实验室的班底,在 2014 年年末创立了商汤科技。2015 年夏天,石建萍博士学位毕业,追随她的「师兄师姐们」进入了商汤科技研究院。她的大师兄,也就是如今商汤科技的 CEO 徐立。
学术到工业的一脉相承
斯坦福大学教授、Deeplearning.ai 的创始人吴恩达曾经说过,如今 99% 的人工智能应用的背后是由监督学习所驱动。易于标注的二维图像数据、算力的提升和深度学习算法的演进,也让视觉领域在过去几年首先得益。
从你睁开眼的那刻起,计算机视觉就开始了它一天的工作:从识别你的头像解锁手机,到登陆你的银行账号;交通灯上的摄像头紧盯着乱闯马路的行人并把他们的头像放大在街头的显示 屏上;进入办公大楼不用再出示工作证,而是直接看向门口的摄像头进行身份验证……
深度学习带给了视觉领域大规模商用的潜能,也让 CVPR 出现了一番新的景象。
过去,视觉领域的问题无法落地到实际的应用场景里,研究大多局限在实验室。可如今,视觉领域与实践紧密结合,产生出了新的问题,工业界需要利用研究来推动自身的商业边界,也就顺其自然地向 CVPR 这样的国际会议输出研究结果。
最近几年,贡献最为明显的要属中国的 A.I. 公司,比如商汤。继 CVPR 2017 入选了 23 篇论文后,今年商汤又贡献了 44 篇(这其中包括了商汤科技、中国香港中文大学 - 商汤科技联合实验室以及其他商汤科技联合实验室),其中 3 篇是 oral(今年 CVPR oral 录取率是 1.88%),内容覆盖了十几个课题,包括大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。
此外,腾讯 AI Lab 有 21 篇论文入选,阿里巴巴 18 篇,腾讯优图 10 篇,旷视科技 8 篇。
石建萍觉得,商汤内部其实没有鼓励大家写论文,毕竟作为一家商业公司还是尽可能多的去做实际产品项目相关的一些东西。论文数量多的主要原因是因为氛围在这里。
「越来越多的同学进入商汤或者港中大商汤联合实验室以后,他旁边就有同学在做类似的事情,也更容易入手。在实际的产品过程中,我们有很多的想法出来,这时候就可以把一些实验提交给学生去做,他们也能够快速地提高技能。」
从 2009 年港中大多媒体实验室的获得最佳论文,到 2018 年商汤科技的 44 篇论文入选,这是一脉相承的结果。
「资源的投入,新问题的产生,肯定对这个领域的发展是有很大的一个正面驱动的这种作用的,」林达华说。
「当然它也会带来一些问题,整个领域的研究比起十年前显得更加功利化,大家都会追求一些要马上能落地,马上能见效的问题,反而对于根本性的一些基础问题得到的重视程度就相对的下降。包括其实近几年的这些顶尖的这些会议都有这方面的趋势。」
「总想有一年来赞助 CVPR」
参加完几次 CVPR,石建萍早已没有当初的那股兴奋劲儿了,但她依然有新的追求。
「以前和师兄师姐聊天的时候,他们都说自己有个梦想:参加了这么多年 CVPR,总想有一年过来赞助下。」
2015 年以前,即便是公司常年赞助 CVPR,也不过是在 poster 外围搭上个小展台。而且,这么多年以来,CVPR 的赞助名单上永远是那几家美国公司:谷歌、微软、亚马逊的 A9、IBM……
在 2015 年的 CVPR 上,一家叫做知图科技的 A.I. 公司买下了那一年的 Platinum Sponsor,并让该公司的品牌直接印在了每个参会者的入场名牌(badge)上,这家公司的联合创始人,便是今天自动驾驶公司图森科技的 CTO 侯晓迪。
赞助 CVPR 有着工业界的考量,这背后反映的是计算机视觉在工业界的迅速升温和对人才的渴求。仅仅在中国,2011 年到 2015 年成立的人脸识别公司就超过 30 家,2016 年达到 70 多家。其中,既有商汤科技为代表的 AI 企业,其后还包括旷视、依图、云从、驭势、格灵深瞳、码隆科技等等;BAT 也都在 A.I. 和计算机视觉领域有了实验室:阿里巴巴成立 iDST,腾讯成立优图,百度成立人工智能实验室。
根据 IDC 在今年 5 月发布的《2018 年中国计算机视觉应用市场研究(上)》报告,截至 2017 年 12 月底,中国计算机视觉应用市场规模达 15.45 亿元人民币,同比 2016 年增长 184.0%。其中,政府、金融、互联网是计算机视觉技术支出规模最大的 3 个行业;政府行业中平安城市、金融行业中人脸身份验证是技术支出规模最大的 2 个场景。
在 A.I. 人才稀缺的年代,像 CVPR 这样的大会就好比是一场大型的招聘会。这些来自高校的学者或是工业界的能人,未来都有可能成为厂商们的核心研究员。
同样在 2015 年,刚刚成立的商汤科技也成为了 CVPR 最高级别的赞助商。对石建萍的那些在商汤的师兄师姐们而言,赞助 CVPR 除了品牌宣传外,也算是了却了心愿。之后,商汤每年都出现在了赞助名单上。
时间来到 2016 年,CVPR 迎来了历史上首次展览会(expo)。那一年就有近 100 家公司参加,到了今年,厂商数量超过了 115 家,也给委员会带来了 200 万美元的赞助收入。
在拉斯维加斯的凯撒宫举办的 CVPR 2016 吸引了 3,500 人,在当时达到了历史新高。展览会在凯撒宫的 Octavius Ballroom 举办,聚集了将近 100 家公司。Platinum Sponsor 的展台达 20*20ft。和工业界展会雷同,公司们搭设屏幕展示 demo 或者技术产品。
在那一年的 Sponsor 名单上,除了商汤我们还看到了更多中国面孔:图森科技、大疆、百度、滴滴……这几家公司也都成为了近年来 CVPR 的熟客。
在那会儿,商汤的展台布置还比较简单:两边各摆上一张海报,中间摆着三台屏幕展示 demo,后面摆着几张桌子。
来到 2018 年,商汤的 CVPR 展台除了一如既往的红色背景外,摆设装潢已经完全不同了:展台的四周由四面展示墙包围,正反面各搭设一个屏幕,用来展示一种商汤的技术产品。这也难怪,如今商汤科技的布局横跨十几个领域,从人脸识别系统 SensePortrait、到增强现实感引擎与平台 SenseAR、再到车内驾驶员监控系统 SenseDrive,要展示的 demo 实在太多。
商汤科技在 CVPR 2018 的展台。
这些过去几年曾出现在某 CVPR 上的论文,如今以 demo 甚至是产品的形式在 CVPR 上重现,这是计算机视觉学者的一种幸运。
写在最后:
「好想去感受一次(CVPR)。」这是许多年纪轻轻、还未经历过 CVPR 的计算机视觉系同学的心声。
林达华还记得他第一年参加 CVPR,那还是 2005 年了,也是中了一篇 oral。「我准备了两三周,反复地在老师面前说。那个时候 oral 时间也比较长,要将近 20 分钟。」
「学生时代的话,其实每一次来开会都怀着一个比较好奇的一个心情,现在也大不一样了。」
石建萍也有同感。2011 年来的时候,她还是一个学生,对什么都好奇。今年她带着几个商汤实习生过来,有些人也是第一次过来,瞧着和当年的自己特别像。
本文为机器之心原创,转载请联系本公众号获得授权。