下围棋的AlphaGo已成绝响，上战场的机器人方显身手

AI科技大本营

发布于 2018-04-27 13:42:22

1.2K0

文章被收录于专栏：AI科技大本营的专栏AI科技大本营的专栏

人类在下围棋上彻底被AlphaGo碾压。

5月27日，人机对战第三局，柯洁又一次告败。赛前，柯洁说，这是他最后一次与机器的对决。

棋圣聂卫平坦言，阿老师（AlphaGo）这一次教会人类很多。具体从本次赛事中，阿老师教了柯洁什么？以职业棋手来看，第一局54手后柯洁陷入困境，第三局31手后柯洁就不行了，第二局柯洁执白，前100手几无失误，局面交错复杂。

第一局和第三局柯洁开局就有失误，这种失误是柯洁下的时候并不知道，AlphaGo给出应对后发现是错误，证明人类顶尖高手和AlphaGo还是有较大差距。所以聂卫平说我们现在只能和AlphaGo学习，而不是挑战。

第一局AlphaGo示范高手点三三正确的用法，54手后柯洁陷入困境

第二局柯洁执白，前100手几无失误，局面交错复杂；柯洁20手点，AlphaGo用23-29的完美应对又教了一招。

第三局AlphaGo开局的第7手和第13手惊爆眼球，下出了从来没有职业高手的下法，31手后柯洁就不行了。

而至于昨天，AlphaGo 1v5的团体赛，五位世界围棋冠军更是从头输到尾，输得口服心服。对战输了自然是实力不济，问题是就连跟AlphaGo的配合，人类也是跟不上节奏。人机配对赛输后，古力自己都承认，“如果AlphaGo能说话，它会批评我的。”

面对人工智能，人类打是打不过的，共生相处又配合不成人家……陷入这样窘境，着实是一个物种的尴尬。

▌输给AlphaGo就是输给人类自己的技术

从技术上讲，AlphaGo的核心机制是策略网络和估值网络，再加上蒙特卡洛搜索树。研究过AlphaGo的李玉喜博士解释：强化学习结合蒙特卡洛搜索树所带来的螺旋式提升，让AlphaGo的策略网络与估值网络在一年内就被提升到一个很高的水平，从而使它的围棋等级分跃升至4500。相比之下，人类水平最高的柯洁只有3000左右，其中的实力差距不言自明。

当这里的技术扩散至社会其他领域，当深度学习、强化学习被用来提升医学、交通、金融、军事等领域的效率时，跟围棋一样，人类败下阵来的消息只会越来越多。能力上比不过AI，那是硬生生的实力差距；而在协作上配合不好AI，这就是人类自己需要反思的地方了。

特别是在军用技术上，如果人类跟不上军用机器人的节奏，那它就不仅仅是批评或者抗议人类了，它向拖自己的后腿的人类开火也不是完全不可能。美军去年公开的 JADE 项目，就计划打造这样一个自动化武器系统：它通过分析社交媒体来进行作战决策，其中包括致命性武器的自动使用，以最小化作战行动中的人为干预。

▌军方对人工智能的强力需求

事实上，军方一直致力于用技术来提升作战效率，并不惜为此投入庞大的资源。这就是为什么我们能看到波士顿动力做出来的各种机器人，它们都是美军的研发机构 DARPA 资助的。

这是研发于 2005 年的 BigDog，由 DARPA 出资，目的是造出一种能够负重的机械骡，伴随士兵一起在传统机械车辆无法行驶的粗糙地形上作战。其平衡能力惊人，自适应能力很强，能爬上35度的斜坡，且负重154千克时的速度为 5.3 公里/小时。但该项目由于噪声过大而被军方搁置。

2013年亮相的 Atlas 是一个类人形机器人，同样是由 DARPA 出资，设计目的是专门针对各种搜索营救任务。2016年公布的新版 Atlas，可以在户外和建筑物内部操作，能自行开门、抱箱子自动平衡，被推倒也能自己站稳，在雪地上行走毫无压力。

但真正投入实战的，却是声名远播的“掠食者”无人机，其 MQ-9 型号是第一种专门设计作为猎杀用途的无人机。2008年，美军开始用 F-16 战机的飞行员来操作 MQ-9 无人机，其飞行控制与武器使用均需从美军的地面控制中心来操作。

而绝大多数人意识不到的军用人工智能，是美军后勤系统所用的动态分析与再计划工具 DART，它在海湾战争前被紧急部署到美军运输司令部，用于自动化“沙漠风暴”行动的后勤规划和运输调度。

该系统可同时协调总数达50000的车辆、物资与人员运输，能够同时考虑起点、终点及调度路径，并解决所有因素之间的冲突。DART 数小时就能自动规划出合理的方案，相比过去的人力规划，可省下近百倍时间。

这是美军在海湾战争期间，得以及时部署好 50 多万军队及 3000 多万吨补给的重要因素。仅到1995年，DART 人工智能系统为美军后勤管理所节省的费用，就超过了 DARPA 此前30年所资助的人工智能研究费用的总和。

正是这样的投入造就了今天的电脑工业与互联网，以及人工智能上的进展。众所周知，互联网大数据孕育出了当前的深度学习热潮，而人工智能的萌芽则根植于冷战时期的数据爆发。

▌人工智能根植于核弹之争

在二战初期，为应对飞机速度越来越快所导致的防空难题，军方急需把防空火力的瞄准与开火自动化来反制敌机，维纳对此的研究成果——“滤波理论”、负反馈调节，便成了控制论的开端。

二战后美苏争霸所造成的军方需求，促使计算机技术与数据处理方法进一步发展，人工智能的思想逐渐成形。

首先，为应对苏联轰炸机的威胁，美国空军开始打造 SAGE 防空系统，并组建北美防空司令部。SAGE 系统的基础是 1947 年开始设计的旋风计算机，后发展成体型巨大的 AN/FSQ-7 战斗管理中枢。旋风计算机的另一继承者则是 MIT 人工智能实验室所采用的 TX-0 与 PDP-1，它们造就了后来的计算机科学与个人电脑行业。

1957年，苏联用 R-7 火箭发射洲际弹道导弹和人造卫星相继取得成功，美国成立 NASA 和 DARPA 两大部门加以应对，很多长期的研发计划开始确立，包括阿波罗登月计划、ARPANET 网络项目等。计算机相关的 MAC 项目起初很小，其中的人工智能小组后来发展成 MIT 的人工智能实验室。

面对现实的威胁，更务实的项目优先得到开发，比如贝尔实验室的哨兵反导系统。它在美国陆军重视下开始加速研究，以期在核战争中保护主要城市。

而要拦截来袭导弹，就需要预警雷达实时监控整个空域，并能在海量的扫描数据中识别和锁定来袭目标，进而发射导弹加以摧毁。

因此，贝尔实验室把数据处理摆在跟反弹道导弹和雷达设备同样重要的地位。

在当时美苏全球争霸的大背景下，双方要把确保相互摧毁数十次的核力量投送到地球的每一个角落，同时部署尽可能多的反导与防空系统来使自己免遭攻击。于是，双方马不停蹄地建造雷达站、侦查飞机和侦察卫星，日夜不停地扫描全球各个角落。

海量的全球扫描数据就此涌入军方与军工业的攻击武器和防御系统，处理海量数据能力的需求日益迫切，早期的计算机公司发展壮大。与此同时，服务于导弹工业和航天业的半导体公司也开始发展，肖克利、仙童、英特尔互不相让……

另一方面，数据处理方法的改进也日趋迫切。从目标自动识别到通用型的模式识别，从数字运算到符号推理，计算机不仅可以解决代数应用题，还能证明几何定理，学习和使用英语……层出不穷进展为人工智能的诞生奠定了基础。

▌与此同时，导弹技术造就了自动驾驶

但军方的技术目标，始终在于作战效率的提升，对美军来说，就是发展出后来24小时全球打击计划。所以，上月初叙利亚的化学武器事件，看到新闻中儿童的无辜死伤，大家都想制裁这样的不人道行为，但只有美军能在短时间内完成相关的情报分析、高精度侦查与“战斧”攻击相关的地形数据处理。

本轮攻击由美军驱逐舰“罗斯号”和“波特号”先后从地中海东部发起，导弹型号为用于对地攻击的战术型“战斧” Block IV TLAM-E，射程1600公里。

战术型“战斧”的制导系统可预先录入15个不同的目标，升空后根据情况来选择其中的一个目标进行攻击，或通过数据链路引导其攻击一个预设之外的新目标。

该导弹由尾部的固态火箭推进器发射升空，达到巡航速度后，弹体弹出短翼并启动涡扇发动机，展开低空飞行。

海面巡航高度为 7-15 米，平地 60 米以下，山地 150 米，时速 880 公里。

进行低空突防的关键，是战斧巡航导弹的地形匹配导航技术，该技术于1958年研究成功，通过比对雷达实时测量的地形信息与导弹事先存储的地形数据来控制飞行。

所以，攻击发动前，操作人员必须要把“战斧”飞行路径上的详细地形数据录入“战斧”的制导系统。

但由于雷达识别能力有限，在海面或沙漠等地形特征不明显的地方飞行时，“战斧”容易失去方向，这就是为什么此次攻击中会有导弹落水。

接近目标后，通过比对相关的雷达影像与 GPS 数据进行自动目标识别，“战斧”便可施展出精确度在 10 米以内对地攻击，有的甚至能从窗口径直飞进建筑物内部。而且，改进后的“战斧”还增设有摄影头，在目标区飞行时可将目标区的影像传回指挥单位来评估战果——如有需要可对其再度发动攻击，或引导导弹攻击新的目标。

战术型战斧甚至可以在目标区域盘旋最多两个小时，以选择攻击的最佳时机。比起 DARPA 资助人工智能早期研究的数百万美元，军方和军工业的导弹合同一单就能达到数十亿美元，他们也更愿意把主要资源用在研发那些当下就能见效的技术上，如增加射程、增强机动性等等。

新发展出来的技术，首先是阿波罗 15 号登月时用来扫描月球表面的激光雷达，其精确度及有效性令军方大为吃惊。随后，用于海陆空各种装备的激光雷达很快被开发出来，其中较为有名的是美国空军用来空射核弹头的 AGM-129 高级巡航导弹。

另一项浩大的工程，则是五角大楼所主导的 GPS 全球定位系统，从着手研发至今，历时 40 多年，耗资数百亿美元，可提供出全球地面任一位置或近地空间连续且精确的三维位置、三维运动及高精度标准时间。

该系统军民两用，在海湾战争中首次被军方用于实战，用途包括导航、目标定位、导弹制导等，2000年后不再刻意干扰民用新号。2015年，FAA 民用标准定位服务的精度可以达到 3.5 米，较最初的 100 米有质的提升。

与此同时，用于导弹制导系统的加速计、陀螺仪、雷达等传感器精度越来越高，体型越来越小……直至2004年，DARPA 开始举办一项自动驾驶挑战赛，以促进自动驾驶技术的发展，并探索其军事用途。当年的第一届比赛非常惨淡，无人能完成预定目标。

第二年，Sebastian Thrun 用 5 部激光雷达、1 个摄像头改装出一辆可感知周围环境的大众途锐，并结合 GPS、加速计与陀螺仪所提供的位置与速度信息，首次完成 DARPA 所设定的自动驾驶目标，并赢得200万美元奖金。

至此，一个初步的自动驾驶系统基本成型。2009年，Thrun 开始领导 Google 的自动驾驶项目，开始了将该技术商业化的漫长征程。

但真正跟用户见面的，却是 Tesla 的 AutoPilot 系统。AutoPilot 并未采用激光雷达，而是用车身周围的8个摄像头、1部毫米波雷达、12个超声波声呐来感知环境，并用英伟达最新的 Titan X 显卡作为计算平台。Tesla 表示该系统在硬件上已具备完全自动驾驶能力。

▌令人担忧的自主攻击武器

目前，军方致力于研发的，正是2015年霍金、马斯克等人公开反对的致命性自主攻击系统，也就是传说中的邪恶人工智能。其中最出名的现实“终结者”，包括英国宇航系统的雷神无人机和美国海军的 UCLASS 航母舰载无人监控和打击系统。

雷神无人机集持续侦测、情报共享、锁定目标及打击任务于一身，具备自主作战能力，可在预设区域内自动导航、自行设定飞行路线及搜寻目标，直至完成任务。不过，英国军方表示，在任何涉及到武器决策的过程必须要有一名人类来控制。

而美国海军的 UCLASS 项目，则是测试已久的无人机项目 X-45、X-47、RQ-170 等的后续，计划于2020年代服役。

到时候，最为接近的电影场景，就是《绝密飞行》的无人机 EDI 开始主动引发战争的时候。

至少，发展中的致命性自主攻击系统尚未完全排除人类，但人类也无法排除自主攻击武器被开发出来的所有可能，而相关的伦理和法律讨论恐怕才刚刚开始。

人工智能在什么样的情况下可以自主开战？人类如何确保对此类人工智能的最终控制权？什么样的人工智能定律需要被开发出来应对此处的难题？

只要“人在环路”，无论人工智能多先进，都还存在人类介入的可能。而军方的自主攻击、指挥决策、后勤保障等系统一旦完全排除人类，相应的人工智能合体为天网并派出终结者的日子就不远了。

好在当前还造不出不需要人类的人工智能，趁我们还能做主的时候，一定要把人工智能中的“人在环路”设计搞清楚。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-27，如有侵权请联系 cloudcommunity@tencent.com 删除

机器人

人工智能

强化学习

本文分享自 AI科技大本营微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器人

人工智能

强化学习

登录后参与评论

0 条评论

热度

下围棋的AlphaGo已成绝响，上战场的机器人方显身手

下围棋的AlphaGo已成绝响，上战场的机器人方显身手

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐