人工智能的门派和武功(一)

导语

前几天Google I/O大会,皮柴演示了最新Google语音助手的听语音预约理发师的功能,结果媒体就起一些吓人标题的新闻“Google造人了!”, 甚至连我大学同学也转发新闻过来问“会不会失业?”。 在吃瓜群众们眼里看来,人工智能颇有点像金庸小说里描述的江湖,武林高手们身怀绝技,飞檐走壁,上天遁地,无所不能。 但你若真的拜师学艺、登堂入室后, 又会发现这些少林、武当、华山传统武学,也并没有那么神奇。

本篇试图通过浅显易懂的故事梳理清楚人工智能的主要应用领域和门派,揭开人工智能的神秘面纱。限于篇幅,分三篇连载,让我们一起进入人工智能的园地。

人工智能发展60年,概念之广,门派之多,武功之杂,即便是专业人士,也往往是专注在一两个分支之上,理解并不全面。 更别说我们这些因为工作需要,匆忙抱着几本书就跑步上岗的非专业人士了。思虑再三,赤膊上阵,勉力而为,尝试把人工智能的主要门派和武功给大家做个梳理和介绍。限于水平有限,理解尚浅,如有错误还请各位看官海涵。废话不多说,先上图:

我们先从这典型的5大应用领域开始,主要讲讲故事,顺手戳穿几个泡沫,后面再看看这些应用背后的门派和武功(理论和技术基础),再展望一下未来。

无人驾驶领域,最牛的当然是Alphabet旗下的无人驾驶车Waymo。Google投入无人驾驶非常早,至少在2009年就开始投入,2010年就在加州开始了路测,经过这么多年发展,最新数据是已经实际开放式路测600万英里,还进行了50亿英里的虚拟路测。 2018年初Waymo高调宣布计划上线自主品牌的共享出行APP,并将于2018年内在美国凤凰城提供无人驾驶出行服务,运营范围达100平方公里,运营理念是“车内无司机、可远程遥控、风雨无阻,日夜不停”。 也就是说你可以随时用手机app在几分钟内叫来一辆无人车,然后带你去你想去的地方。Wow!听起来好厉害是不是?

(Waymo 无人驾驶汽车)

且慢,让我们看看背后的技术成熟度。2017年全年Waymo在加州境内行驶了35万英里,其“脱离”(指自动驾驶系统暂停,人类接管控制)指标为63次, 作为对比排名第二的通用汽车行驶了13万英里,脱离次数为105。Waymo给出脱离的情形中,排名前三的分别是“Disengage for unwanted maneuver of the vehicle 车辆行为异常”、“Disengage for a perception discrepancy 车辆感知异常”和“Disengage for hardware discrepancy 硬件异常”。 从脱离指标来看, Waymo距离真正无人干预还有一段距离,总不能让乘客还时不时接管一个无人驾驶出租车吧! 所以Waymo为了加速商用进程, 2017年把大部分的无人驾驶测试车都从加州搬到了凤凰城测试,选择凤凰城的原因是因为当地天气以晴朗为主,雨雪天少,而且城市道路规划的很规则,居民不多,选择的区域也多是偏远郊区。 可见即便2018在凤凰城无人出租车实际运营了, 也是捡了一个软柿子捏,距离真正成熟和在各个城市普遍可商用恐怕还要一段时间。 这还是Waymo,其他车企如奔驰提交的加州实际路测数据就惨不忍睹了。最近Uber无人车出现的交通事故,也是技术故障,无人车检测到了前方人,但不知道什么原因就是没有停车。 深圳前一阵子的无人公交车新闻,当时并没有看到具体技术提供方公司名称,也没看到事前的技术可行性验证和详细路测报告,所以这种更多还是新闻炒作。

( 凤凰城一角,城市道路规划整齐 )

再来看看计算机视觉。这个领域范围很广,包括人脸识别、图像识别、物体检测等。 我们拿图像识别领域,聊聊这几年名声在外的ImageNet大规模视觉识别挑战赛(ILSVRC),自2010年起,每年一次,参赛程序比拼对物体和场景进行分类和检测的准确率,2012年采用卷积神经元网络的AlexNet横空出世,Top5错误率仅15.4% (第二名26%)。 所以随后几年,大家都采用卷积神经元网络算法建模,Top5错误率逐年快速下降,2014年GoogLeNet仅6.7%, 而2015年ResNet仅3.57%。 正常人类的错误率是5.1%, 也就是自2015年后计算机的识别错误率已经低于人类了,沿着既有规则比赛已经没有意义了, 所以2017年7月26日,ImageNet宣布是最后一届竞赛并正式结束。

( 2015年的Top-5错误率比较,计算机已经低于人类了 )

那么我们看看这个比赛规则是啥? 比赛是使用的ImageNet数据集,截止到2016年这个图片库中含有超过1500万张由人手工标注的图片, 标签中说明了图片中的内容,有超过2.2万个类别。 不可否认在采用ImageNet这种有标注的数据集的情况下,卷积神经元网络已经取得很好的结果。但是下一步,采用无标注数据集、目标是理解图像中的内容而不是识别和检测,仍然是下一个挑战的方向。举例来说,计算机可以识别图像中的罗纳尔多,但却无法理解是1998年夏天悲伤的罗纳尔多,还是2002年夏天快乐的罗纳尔多(同年代的球迷朋友们或能会心一笑)。

(1998年的罗纳尔多和2002年的罗纳尔多)

接下来我们看看自然语言处理,这个领域也很广,包括语义理解、机器翻译、自动摘要等。拿机器翻译来说,2018年博鳌亚洲论坛采用了人工智能同声传译方案,事前媒体大肆宣传,结果在现场表现欠佳,出现大面积单词无意义重复,把“一带一路”翻译为”一条公路和一条腰带”等等错误。 最后还是人工同传紧急上阵救急,但这些事情新闻就不怎么讲了。 一些公司在媒体展示的时候,常常拿特定内容针对性做优化,这样人前演示效果很好,但实际用起来就不是那么回事。这是可以理解的,语言是人类智慧的结晶,语义通常是要结合上下文来理解的,但现在的机器翻译技术本质上还是基于词义的统计概率做映射(也就是找到中英文单词的映射关系,而非理解了文字和句子的意思),虽然随着算力的提高可以做到根据多个上下文单词的联合概率来找到最优解,但仍然做不到根据上下文句子环境来选择最合适的词义。所以碰到俚语、偏僻词义、长句子,都还得靠人工录入的规则(专家知识)来弥补。 说回到开头提到的Google I/O大会上的语音突破,其实官方再三声明这个只是在“特定场景”下的,而且主要是后端的语音合成技术突破(采用了Deepmind的Wavenet技术),并非是前端语义理解部分的技术突破。

更多内容,请听下回解读

更多信息,

请关注“人工智能园地”

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180522G16F0J00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券