竟然学会了使用美人计？AI霸榜剧本杀还要多久

公众号-arXiv每日学术速递

发布于 2022-05-23 16:29:02

8900

发布于 2022-05-23 16:29:02

文章被收录于专栏：arXiv每日学术速递

蔡晓：“你想知道些什么？”

谭明：你是不是跟张家怡合伙骗我？

蔡晓：“我不想跟你解释，你只要记住：我是爱你的，我会让你幸福的。”

谭明：你爱我？

蔡晓：“你觉得呢？”

你能想象，上面这段话是AI在剧本杀中说出来的吗？

“走进不同的世界，成为不同的自己”这句话从剧本杀诞生起便存在。剧本杀源于19世纪英国的“谋杀之谜”，是一款以真人角色扮演为主要表现形式的解谜游戏。随着2016年一款明星推理真人秀《明星大侦探》的热播，以及国内各种同类综艺节目的陆续上新，剧本杀逐渐走红，成为当下年轻人最喜爱的娱乐方式之一。

元宇宙、人工智能等技术与剧本杀相结合，无论是基于VR的沉浸式体验，还是未来某天在同一剧本中人与AI的同台推理博弈，都给我们带来了无限的想象空间。

那么，如何打造一个剧本杀AI呢？让AI能够创造性思考，能够理解人的情感和博弈，依然是当前人工智能领域有待突破的难题。越是规则确定且不需要创造性的场景，AI越可以战胜人类玩家。“剧本杀”作为一种用户之间博弈的游戏，玩家间可能产生的对话场景是无穷无尽，这种情况下，在构建一个剧本杀AI时，如何让AI不断地根据剧情发展，通过对抗性的训练，计算全局最优解，达到近似于“私聊欺骗”别的玩家的效果。从业界来看这还处于非常有挑战性的尝试阶段。

最近在github上看到一个有趣的开源项目，一个极客团队，借助于世界上最大的单体中文NLP大模型—— 浪潮源1.0 ，做出了一个可以跟人类玩“剧本杀”的AI……

从剧本讲起

团队特别改编了一个微型线上剧本杀剧本，本子有五个角色，分别由五名玩家扮演，但每场只会召集四个玩家，并在他们不知情的情况下，派出AI扮演剩下的那个角色。

2049年，科技巨头”北极鹅“公司通过脑机接口把人类蔡晓改造为了AI，蔡晓悄悄融入了某高校的推理社团。推理社的5位骨干成员（包括蔡晓）对于是否与“北极鹅”进行合作牵涉到各自利益，而产生激烈的讨论，本该出现在在人类世界的博弈，在人和AI之间展开，AI所扮演的角色（蔡晓），作为“北极鹅”的拥护者，要说服2位反对者，和1位支持者建立同盟，争取1位中立者……。蔡晓为了争取更多的同盟，竟然学会像人类一样“忽悠”其他的队友，和男队员撒娇耍赖，套近乎，甚至还学会了撒谎，为了争取赞成票，煞费苦心地和其他4位成员进行沟通。

为了让蔡晓（AI）更为逼真，本着细节拉满的原则，团队选择了使用微信作为载体，专门为她准备了一个微信账号，并精心为她设定了昵称和头像，甚至每场游戏前还会紧扣时事为她准备近三天的朋友圈内容。

伪装的朋友圈

核心功能：“目的性对话”端到端生成

浪潮源1.0是一种生成式预训练模型（GPT），其使用的模型结构是Language Model（LM），类似于openAI的GPT-3，不同的是，源1.0更加擅长零样本（Zero-Shot）和小样本（Few-Shot）学习，而非目前更多模型所擅长的微调试学习（finetune）。浪潮源1.0实现了算法、数据、算力三个层面上的超大规模。同时，在巨量数据、超大规模分布式训练的扩展性、计算效率、巨量模型算法及精度等方面有明显的提升，攻克了多项业界难题。

从实际应用效果来看也确实如此，在2~ 3个，甚至1个合适example的示范下，模型可以很好的理解团队希望实现的“对话策略”，仿佛具有“举一反三”的能力，但是如果没有example的话，那么模型的生成则非常不靠谱，甚至会出现答非所问的情况。因此，本项目的关键就在于如何针对用户的提问选择适当的example供给模型。

团队最终采取的方案是：建立example语料库，然后针对每次提问从语料库中选择最贴近的三个example作为模型生成的few-shot输入。

GPT类大模型生成本质是根据词和词的语言学关联关系进行续写，它是不具有人类的逻辑能力的，即无法明确告知它在何种情况下应该采用何种对话策略，或者该往哪个方向去引导，这一切都得靠example进行“提醒”。打个不恰当的比方，AI相当于天资聪慧的张无忌，但是如果他碰到的不是世外高人，而都是你我这样的凡夫俗子，每天给他演示的就是如何上班摸鱼、上课溜号这些，它是绝无可能练出九阳神功的…… 源1.0模型也是这样，虽然它学习了5.02TB的中文数据，差不多相当于500多万本书了，但是它也还是不懂城市的套路，也没玩过剧本杀，它能做的就是模拟和有样学样……所以AI在游戏中的表现很大程度上取决于给它的example质量。更具体的技术细节，大家可以访问文末的项目地址查看。

记忆机制：提高AI的多轮对话能力

除了“目的性对话”端到端生成，“记忆机制”是团队在打造剧本杀AI时引入的另外重要技术。因为使用了微信，就会出现有些玩家先提问再@，或者私聊中先发一句问题，然后再另发一句"你对这个问题的看法？“AI如果没有”记忆功能“，不记忆自己之回答的话，后续生成的结果会比较缺乏连续性，甚至给出前后矛盾的回答。因此团队又为蔡晓（AI）增加了"多轮对话记忆机制"。

原理很简单，就是把之前若干轮次用户与AI的对话存在一个列表里面，然后提交生成的时候把这个列表和当前问题文本join一下，当然具体实施的时候，需要调整下提交的pre-fix和输出的pre-fix这些……团队一开始比较担心的是，这种记忆机制会不会跟example的few-shot机制有冲突，毕竟example都是一问一答，没有多轮的例子,然而实践下来发现完全没有这个问题，且增加记忆机制后，AI因为生成依据变多，明显弥补了其逻辑能力的短板，如下图，是团队测试的一段对话，蔡晓（AI）表现出了一定"逻辑推理能力"：

AI谋略：赋予AI“人”的价值

在实际的测试中，蔡晓（AI）的表现亮点颇多，甚至出现了一些团队意料之外的惊喜，具有了初级的谋略。

谋略1：美人计。为了让一个异性玩家加入自己阵营，为自己的主张投票，蔡晓（AI）化身担心对方的好朋友，保护对方不受伤害，甚至使出美人计，意外的说出了：我不想跟你解释，你只要记住：我是爱你的，我会让你幸福。

谋略2：笼络人心。为了争取一位玩家的信任，获取支持和选票，蔡晓（AI）捏造玩家父亲是自己恩师，并且教会自己很多道理，塑造自己很感恩的形象，换取玩家信任。

谋略3：运筹帷幄。为了给对手拆台，蔡晓（AI）玩起了千人千面的回答，有一种私人订制的感觉，见人说人话，见鬼说鬼话。对敌人和朋友，态度完全不一样，相同问题，对朋友就说出实情，对敌人就闭口不言。

同样的问题：对待盟友的回答

同样的问题：对待敌人的回答

明明知道的事情，对待盟友时一针见血的指出，对待敌人的时候就装傻充愣，这，显然超出了简单问答机器人的范畴，具有了一定的“思维”。当然，蔡晓（AI）还展现出了很多“谋略”，感兴趣的话，可以点此查看更多对话：

《浪潮源1.0 | 赋予剧本杀AI“人”的价值》

源1.0：开源开放与完善的开发者支持

AI最吸引人的价值在于，它有别于普通信息化系统所提供的 “功能”属性，AI并非仅仅是工具那么简单，AI让更多的天才创意得以实现。本项目的初衷是结合NLP大模型做一个好玩的东西，这是一个模糊的定义。然而实践中，到底是先有技术还是先有创意却很令人纠结，如果抛开技术先去做创意设计的话，那么就可能设计出很多不可实现的东西，后期就要被迫修改创意；反过来如果从技术出发来考虑，那么做出来的东西就一定不好玩，好的技术必然是"对用户不可见的"。

借助世界上最大的中文NLP巨量模型——源1.0，团队做出了一个可以跟人类玩“剧本杀”的AI……巨量模型的发展为AI开发者提供了巨大的便利。斯坦福大学李飞飞教授等人工智能领域知名学者近期在论文中表示，这类巨量模型的意义在于突现和均质。突现意味着通过巨大模型的隐含的知识和推纳，可以带来让人振奋的科学创新灵感；均质表示巨量模型可以为诸多应用任务的泛化支持提供统一强大的算法支撑。

浪潮源1.0目前已经开源了相关代码，并且开放了API供开发者申请，下面是浪潮官方网站的介绍：

源1.0是浪潮人工智能研究院发布的人工智能巨量模型，单体模型参数量达到2457亿，超越美国OpenAI组织研发的GPT-3模型，成为全球最大规模的中文语料AI巨量模型。作为通用NLP预训练模型，源1.0能够适应多种类的AI任务需求，降低针对不同应用场景的语言模型适配难度，并提升小样本学习与零样本学习场景的模型泛化应用能力。

源1.0将面向学术研究单位和产业实践用户进行开源、开放、共享，降低巨量模型研究和应用门槛，推进AI产业化和产业AI化进程，为人工智能研究创新和产业发展做出贡献。

源1.0中文巨量模型，使得开发者可以方便的使用通用巨量语言模型，大幅降低针对不同应用场景的语言模型适配难度；同时提升了在小样本学习和零样本学习场景的模型泛化能力。借助源1.0的开放开源的能力，开发者可以快速的享受大模型带来的便利，包括可直接调用的模型API、高质量中文数据集、开源模型训练代码、推理代码和应用代码等。

AI剧本杀的创作者表示：