太阳底下无新事,趋势变化不是无迹可寻。
一次次科技转关大同小异,无非钱动人动,最终潮水汹涌成势能。
2017年何小鹏由投资人亲任董事长,小鹏汽车便开启钱至人至加速度,上周又刚官宣一轮40亿元新融资,整体估值超250亿元。
同时,隐而未宣的是又有AI人才加盟。
这一次,微软计算机视觉科学家郭彦东,从微软总部而来,任职小鹏汽车AI产品部计算机视觉首席研究员。
郭彦东将承担的,是小鹏智能车AI视觉及感知相关的研发到应用。
这位80后科学家拿什么hold住?
虽然年轻,但郭彦东却是这波AI浪潮中最“生逢其时”的一代人。加入小鹏汽车前,郭彦东在AI及CV相关的研发已有14年之久。
郭彦东本科和硕士均学成于北京邮电大学,曾在汤姆森研究院(后更名为Technicolor)和中国移动任职,参与过中国第一代甚低码率可视电话的研发,也是中国移动彩信,手机电视,手机阅读等等企业标准/国家标准的制定者之一。
其后拿到普度大学全额奖学金赴美读博,师从美国工程院院士Jan P. Allebach与Charles A. Bouman。博士期间多项视觉领域的研究成果作为关键技术被应用在GE、HP等公司。
从博士毕业起,他就成为微软美国总部研究员,专注机器视觉和图像处理技术,是微软智能识别服务的关键贡献者。
在微软期间,郭彦东在计算机视觉,人脸识别上的研究成果被广泛应用在微软图像搜索(image.bing.com)、人工智能云服务(Microsoft Cognitive Service)、情感计算小冰,知识图谱(Microsoft Knowledge Graph)等微软的视觉相关产品中。
特别是2016年与2017年,郭彦东将大数据、知识图谱,以及深度学习的方法有机融合在一起,并和同事一起发起组织了微软百万名人识别竞赛MS-Celeb-1M——后来被业内称为人脸识别“世界杯”,在业界影响巨大。
更关键的是,2016年开始,郭彦东领导了微软互联互通车项目的视觉感知部分,致力于将微软的视觉技术推广到汽车领域,主导研究开发了基于视觉的车内、车外感知功能。
也是如此专注的履历,郭彦东成为何小鹏全球挖角之旅中的重要专家人选。
在小鹏汽车,郭彦东一样名校博士、履历闪光的人都被称作专家。既是出于人才的尊重,也为体现产学研一提的决心——不再是科学家科研、工程师落地的二分法模式。
而在此体系中,视觉和感知,是小鹏汽车AI研发平台下一个极其重要的业务方向。
小鹏汽车从创立之初,就以“智能车”为目标,而视觉与感知是智能的基础与前提。智能化就是真正的理解车外与车内的场景,
小鹏也对外多次介绍过,这将是一条从L2到L3,再最终迈入L4、L5的自动驾驶实现之路。
实际上,当前见怪不怪,有些辅助驾驶功能,作为独立模块,多可以有供应商提供了。
但这家造车新势力宁愿走得更难,希望自建AI视觉和感知研发,以此将AI用户体验与车辆安全熔于一炉,从而打造企业产品核心差异化。
郭彦东举例说,如将智能感知与决策把独立的辅助驾驶功能有机结合起来,才会打造出真正的智能车,才能够提高用户的体验。
更具体而言,一方面是车外的一些感知,如天气、场景、以及事件的识别和预测。
“一个司机在路上看到一辆校车停在路边,车门打开了,他会知道可能有小朋友从车里跑出来。但是什么时候我们的辅助驾驶功能车,搭载了智能模块以后也能做出类似的判断呢?这才是我们乐于看到的事情。”
车外场景之外,车内的感知对用户体验也同等重要。
如乘客、司机的识别,通过面部状态监控对注意力、情绪的识别,对安全和体验都尤为关键。
在郭彦东看来,面部监控对于L2到L3的跨越非常关键。
L2级辅助驾驶,需要手不离方向盘,以保持对车控制;而L3则手可离方向盘,但是需要用户随时接管方向盘。让用户随时能够恢复接管的前提就是需要知道用户的状态,提醒用户保持注意力集中。有统计数据表明,在辅助驾驶的情况下,用户反而会倾向于降低关注度。
“如果在驾驶过程中,让传感器实时感知,能够更好理解司机状态,不断做出反馈,那L2到L3之间过渡的核心问题便能得到安全性高体验性地解决。”
如此方案,听起来容易理解,但做起来其实并不容易。
小鹏汽车内部,已形成三步走共识。
按照数据量的三阶段:冷启动,系统模型训练,最后量产车场景迭代,将AI智能车系统分三步走。
第一步,无车/少车情况下,数据冷启动。
郭彦东认为可以依靠4方面,1)互联网大数据、2)仿真大数据、3)自有车队或测试车队大数据,4)中国真实用户大数据。
这位曾经参与微软Bing图片搜索核心技术研发的科学家说,互联网数据量非常之大,对早期算法的演进意义重大。
但也不是“完美无瑕”,毕竟这部分数据可能跟无人驾驶、智能车需求的数据分布不尽一致,标注也存在困难,需要用迁移学习的方式将互联网的结构化信息转移转换,赋能于车。
于是为了验证迁移学习的效果,同时也得到更多,更真实的数据,也需要关注仿真大数据、自有车队数据,以及用户真实数据等其他3个渠道。
总之,数据是深度学习之关键,也是智能车系统模型优劣的关键。
数据经过冷启动阶段,接下来就是搭建AI平台,训练深度学习模型。
郭彦东强调,在智能车的场景中,往往最有价值的就是长尾(long-tail)数据。
即那些低频场景下才能产生的数据,尽管长尾数据需要的种类、类别、数量都会非常多且有挑战,但越多长尾数据收集,就越能让智能车适应更多场景。
这也就要求需要有一个快速处理长尾数据能力的AI平台。业界也有很多相关的努力。
比如微软的custom vision,郭彦东博士本人就曾参与该项目的核心研究工作,可以在样本数很小的情况下,用非常短的时间,得到很准确的模型的。
虽然纯互联网系统平台与车用场景并不一致,技术上还有诸多挑战,但郭彦东坚信能克服,并在量产车场景下实现更快,更精准,能够处理长尾数据的智能闭环迭代。
作为整车厂,从无到有造车自然不易,但也是吸引郭彦东的核心“优势”之一。
有了数据,有了AI模型训练平台,还需要更多数据帮助迭代,而量产车正是最独一无二的场景。
此前在Uber和特斯拉发展自动驾驶时,业内便对这种路线颇为看好,核心原因之一便是有时刻不停地真实场景下的量产车“帮助”数据迭代和模型迭代。
所以郭彦东博士认为,一旦小鹏量产车上路,虽有更大更多数据反馈方面的繁重工作,但每一次都会让智能车系统更出色,迭代升级会更快,用户的反馈也能帮助智能车各项功能的调校。
这让AI视觉科学家们渴求。
更何况,比起在美国造车,中国有更广阔的市场空间和更独特的路况场景及驾驶行为。
郭彦东坦承,回国参与一番事业,是每一个中国AI人才的梦想。
而且小鹏汽车所承载的市场机遇,前所未有。
有数据统计,美国汽车千人保有量是910辆,但中国千人只有154辆。
加之经济发展势头,未来5-10年的增长机遇,空间和趋势不言自明。
郭彦东说,想要做出更具影响力的产品,让所学技术被最多人使用,就要跳上最富潜力和前景的航海船。
小鹏汽车,对他而言就是这艘AI大航海时代的船。
当然,郭彦东也心怀教育传承之心,虽然他已同时是北京邮电大学和电子科技大学的兼职教授,但他希望能带领更多年轻人躬行实践,将所学化为所用。
他说在小鹏汽车还有一项重要使命——招募更多年轻有为的人才。
从业务划分,他认为自然可以分出个车内智能、车外环境感知、关键视觉技术模块开发和模型优化与融合的招聘方向。
但更重要的是年轻、干劲足,学习成长快,而且有自主自研的决心。
郭彦东说,拿来改和用很简单、坚持自研很难,但最难的路也最考验基础、最容易造就创新。
注:中美汽车保有量数据来源
【1】“Vehicle Statistics: Cars Per Capita”. Capitol Tires.
【2】 “环境保护部发布《中国机动车环境管理年报(2017)》”. 中华人民共和国环境保护部. Retrieved 2017-11-01.