你已经是台成熟的vivo手机了,要自己学会打王者

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI

关于vivo,如果你还完全停留在“做手机”层面,是时候刷新印象了。

刚刚,他们披露了AI研究方面的最新进展,和此前的潮头公司一样,vivo也把目光投向游戏领域,而且一出手就是《王者荣耀》。

究竟是怎样一回事?

AI打游戏

事情可以从上周五那场“星际2”人机大战说起。

当时DeepMind开发的全新AI程序AlphaStar,以10:1战绩,“完虐”人类职业高手。

激战之后,更多AI打游戏的意义被广泛科普。

一方面是挑战性。例如动作的种类,围棋只有361个下棋位置,星际2算上各种技能和走位控制,即便一个84x84分辨率的小屏幕,也有一亿多种可能的操作。

同时,在玩“星际2”的过程中,玩家并不能看到整个战场的信息,你甚至还要猜测、估算对方的行动,来进行你自己的规划和决策。

另一方面是意义。因为人类一直对AI不能完全掌握,再加上AI技术和应用探索的过程中往往需要大量的数据,可以随意试错、拥有大量人类数据的电子游戏,一直被视为人工智能最好的实验平台之一。

因为游戏本身就是人为创造的,用以帮助人来习得某个技能或者作为测试技能水平的工具。

而后者,也正是vivo拿《王者荣耀》进行AI尝试的核心原因。

训练AI打《王者荣耀》

2018年初,vivo在战略发布会上宣布将建立vivo AI Lab,其后7月,该实验室正式成立,并紧接着对《王者荣耀》发起了AI冲击。

本次vivo AI Lab所使用的强化学习架构

而且本次vivo AI Lab还专门提出并使用了一种全新的分层强化学习模型。

这种神经网络模型,既能够通过模仿人类来制定宏观策略,同时还能根据强化学习来保证微观操作。

尤其适应即时战略游戏(RTS)对于操作的需求。

就《王者荣耀》而言,关键性的大局观包括:“去哪儿”、“应该何时去支援队友”、“队友应该何时一起参加团战”……

而重要的精细化操作则包括:“何时闪现”、“何时交出大招”、“多人团战中应该如何精细走位”、“团战中应该如何释放技能”。

上述两种操作,对人类玩家稀疏平常,对AI却别有挑战。

而且也需要具体问题具体分析,需要有不同的应对策略。

此次vivo AI Lab,就分别采用了不同的策略。

针对大局观,因为很难量化和计算,需要先参考人类数据,进行模仿学习和专家引导。

而在精细化操作时,vivo AI Lab直接使用了“多智能体”强化学习方法。

通俗来说,可以视为成百上千个机器人在虚拟团战走位、技能释放等操作,其中只有表现最好的能够留下来。通过不断的对垒,让机器自然而然学会最优操作方式。

如图中情况,训练过程中,一旦观察到电脑开大,马上闪现然后反身开大,整个过程一气呵成。

当然,最终结果也给出了最直接反馈。

经过一系列神经网络训练后,vivo AI Lab的模型在1 V 1模式下能以100%胜率击败游戏中的内置AI。

另外,也能在5 V 5模式下,以AI战队的形式表现出较好的协同性能。

不止于让AI“打”游戏

为胜而出发,自然也不是vivo教AI打《王者荣耀》的全部。

在实验全新深度学习模型的同时,vivo AI Lab也在尝试另一条更具挑战的路——不使用游戏的API接口,转而直接从图像监测并获取游戏中的各种特征数据。

之前,很多公司和机构都曾在电子游戏上发起人工智能挑战,但基本都采用了游戏的API接口,可以让AI无需经过图像分析等手段就能直接获知游戏中各个单位、环境的数据。

AlphaStar获取的游戏数据:非常简洁

比如DeepMind的AlphaStar,它并没有直接从图像中获取单位信息,而是从游戏引擎里面读取特征数据,这些图像直接标记了哪里是兵、哪里是工厂。

但vivo则选择了更难的路。

vivo AI Lab专门搭建了一套深度学习模型来捕捉《王者荣耀》中5个英雄的特征。

更直白说,就是把5个英雄对应的大地图和小地图数据,通过卷积神经网络提取信息,结合多目标检测提取的特征向量,再输入到上文所提到的分层神经网络当中。然后各个英雄根据自身状态环境,决策出不同的动作,实现在各自情况下的对应操作。

为什么要这么做?

vivo AI Lab解释说,虽然这个过程不起眼,但实际上却可能对AI的表现有很大影响。

毕竟实际用户都是通过手机显示的图像来获取信息,假如人工智能都从API接口来获取信息,又怎么能保证这些信息的层级和精准度都是跟人类从图像中获取的一致?

所以vivo所想,正是宁愿额外花力气填补流程,希望让AI能够完整模拟人类从看到屏幕上图像,到实际操作的全过程——让AI的运转环境条件更接近普通用户。

分布式神经网络训练环境

值得一提的是,为了实现同时对多个英雄数据采集,并且提高整个《王者荣耀》人工智能模型的采样效率、样本多样性和训练速度。

vivo AI Lab还搭建了一整个分布式强化学习环境:终端、PC端和云端一体运用。

其中,手机负责游戏的运行、动作执行和数据采集;

电脑负责连接手机和服务器,进行强化学习算法选择、动作决策单元的运转;

云端的GPU服务器集群负责整个神经网络的运行和存储。

并且在该环节,vivo AI Lab还直接使用了全开源的gRPC技术,这是HTTP 2.0时代的基础底层数据框架。

也能让整个“分布式强化学习环境”具有极大的网络化潜力。

面向AI时代打造手机

当然,至此,可能你也能窥见vivo训练AI打游戏的雄心所在了。

跟单纯通过游戏训练AI并“迁移”到其他场景不同,vivo既然不使用游戏的API接口、转而从游戏界面的图像获取数据,那更在意的显然是未来性

怎么理解这种未来性?

vivo方面说,因为整个深度学习过程中的数据都是从手机终端直接采样而得,除了其他玩法类似、基础操作需求相近、图像识别相近的游戏外,vivo还能利用与本次尝试相同的架构(手机图像识别+特定深度学习神经网络+深度学习网络化环境),对手机中的各种场景进行学习归纳。

最终让vivo手机从方方面更懂你。

此外,这次采用gRPC技术来构建整个人工智能学习环境的数据传输,也能以网络化方式解决“如何采集到足够的样本数据”和“如何让尽可能多的用户用上花大力气训练出来的神经网络”等业内难题。

所以vivo此次尝试,实际也是一次面向AI时代打造智能手机的试水。

而且对于vivo来说,AI也已经在手机体验中发挥作用。

2018年3月,vivo在X21上首次发布了“Jovi”人工智能助手,能够在屏幕中直接识别人物、快递、景点地址、网址等关键信息。

负一屏的“智慧场景” ,则能有效地将通勤时间、票务酒店预订、步数、天气等信息进行整合展示。

其后9月,vivo还发布了全新的IoT战略——Jovi物联,希望让Jovi能够适配一系列智能家居产品,让Jovi成为“把人和数字世界联系在一起”的控制核心。

如今,披露的《王者荣耀》AI,亦是对这份壮志雄心的进一步推动。

现在,是时候刷新对vivo的印象了。

传送门

最后,本次vivo的《王者荣耀》AI,vivo AI Lab也形成了公开论文,点击“阅读原文”即可前往。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2019-01-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券