专栏首页AI研习社GPT-2的大规模部署:AI Dungeon 2 如何支撑百万级用户

GPT-2的大规模部署:AI Dungeon 2 如何支撑百万级用户

早在 2019 年 3 月,我就建立了一个名为 AI Dungeon 的 hackathon 项目。这个项目是一个经典的文本冒险游戏。故事的内容和所呈现的潜在动作都是通过机器学习产生的:

图片来源:AI Dungeon Classic

这款游戏在 hackathon 很受欢迎,总会有一小群人在线,但总的来说,离我的预想还有差距。

首先,玩家只能从游戏提供的选项中进行选择。我想要一个真正开放的世界,玩家可以随心所欲地写作;另一方面,在长时间的游戏过程中,游戏很快就变得容易胡言乱语:

图片来源:AI Dungeon Classic

不幸的是,这两个问题都没有很明确的解决方法。我在当时最大的可用参数版本 GPT-2 上建立了 AI Dungeon。尽管 GPT-2 是可用的最强大的模型,但实际上还远远不够。经过几个月的修复和调整,我的游戏有了很大的改进,但还是遇到了同样的问题。

然而,在 11 月,OpenAI 发布了完整的 15 亿参数 GPT-2 模型,并为新版本的游戏打开了大门,这个版本更接近我最初的想法。一个月后,我发布了 AI Dungeon 2,一个基于 GPT-2 模式的真正开放的文本冒险游戏:

图片来源:AI Dungeon

在游戏中,你可以做任何事情。组建一个骷髅摇滚乐队?吃月亮?安装 Windows 10?一切皆有可能。

游戏反响非常好。我们登上了黑客新闻的榜首,一些受欢迎的玩家发布了相关视频,Twitter 上满是 ML 生成的冒险的截图。一周之内,我们有了超过 10 万名玩家,其中超过一半玩家从头到尾完成了游戏。

然而,由于突然引起关注,我们的成本也大大增加。

如何在 GCP 上花费 50000 美元

当我第一次发布 AI Dungeon 2 时,它并不是一个托管应用,而是一个用户可以复制并运行的 Google Colab notebook,用户可以下载 AI Dungeon 模型并安装游戏界面。

图片来源:Google Colab

这种方法之所以有意义,有几个原因。首先,Colab 是免费的,这使得它成为了一个很好的辅助项目平台。其次,Google 为每个 Colab notebook 提供了一个免费的 GPU 实例,这是运行 5GB 模型所必需的。

我们遇到的第一个问题是我们的模型几乎不适合 GPU 实例。如果由于某种原因,你的游戏需要一点额外的内存,整个游戏可能会崩溃。

第二个更严重的问题是资金问题。

我之所以选择 Colab 是基于成本的考虑,但我没有考虑数据下载的费用。由于每个 Colab notebook 都需要下载 5GB 的模型,而且用户分布在不同的地区,因此每次下载的成本在 0.30 到 0.40 美元之间。

当每天的账单达到 2000 美元时,比亚迪的感知控制认知实验室(PCCL)非常友好地处理了这些费用;当成本达到 7000 美元时,他们还可以接受;但是当成本达到 15000 美元时,他们开始紧张起来;在成本达到 20000 美元时,我们都同意我们需要做点什么;在成本达到 30000 美元时,他们都想拔掉插头了。

到一切都谈妥时,三天内总帐已达 50000 美元。

在不中断的情况下按比例部署 GPT-2

在 PCCL 关闭 AI Dungeon 2 的 12 小时内,我们的社区已经通过 torrent 分享模型的点对点解决方案,这意味着游戏是备份的,没有下载收费。

然而,这显然是一项临时措施。AI Dungeon 2 的愿景是,它是一个任何人都可以玩的游戏,而不仅仅是那些有技术头脑的人运行一个 Colab notebook。为了做到这一点,我们需要发布一个真正的应用程序游戏。

要构建一个完整的 AI Dungeon 2 应用程序,我们的模型需要部署为后端 web 服务器。你可以将它当成是一个“预测API”,我们的应用程序可以通过用户的输入进行查询,从而生成接下来的故事。以前使用过 microservices 的人都应该熟悉这种模式。

问题是,如何在 ML 模型的基础上构建微服务?

事实证明,有一个开源工具可以自动实现它,那就是 Cortex。在高层上,Cortex 将会:

  • 将模型打包在 API 中并将其容器化
  • 将模型部署到云中,将 API 公开为 HTTP 端点
  • 自动缩放实例以处理流量波动

我们没有使用 Flask、Docker、Kubernetes 和一大堆 AWS 服务来构建自己的基础设施,我们可以整合和自动化我们的基础设施。

这种架构允许我们将我们的模型作为网络和移动应用程序的后端,向不能使用 Colab 的玩家开放游戏。然而,它也需要一些优化,以便我们能够负担得起其费用。

首先,我们需要配置积极的自动缩放。我们每运行一个实例就收取一分钟的费用,为了服务于许多并行用户,我们需要启动许多实例。为了最高效地利用我们的资源,我们需要在任何给定的时刻提高所需实例的最小数量,并快速地删除任何不必要的实例。

其次,我们需要选择最佳的实例类型。这意味着要准确计算出我们的实例需要多大才能有效地承载模型,并利用 spot 实例——云提供商以大幅折扣出售的未使用实例。

经过一些修复,我们能够使我们的 Cortex 部署比以前 Colab 的设置成本效益高出大约 90%。在两周内,我们的服务器数量达到了 715 台的峰值,我们支持了超过 10 万名玩家。六周后,我们已经支持了超过了 100 万名用户,创建了 600 万个独特的故事。

扩展 AI Dungeon 需要社区的共同努力

在每个发展阶段,社区都是开启我们下一阶段规模的关键。

最明显的例子是那些玩 AI Dungeon 2 的人。没有他们,游戏就没有任何规模可言。不过,除了我们的玩家,我们还得到了社区成员的帮助,比如:

  • BYU PCCL 支付我们的初始 GCP 账单
  • 在关闭后的 12 小时内,通过 torrent 将 AI Dungeon 2 重新上线的用户
  • Braydon Batungbacal,他自愿构建 iOS 和 Android 应用程序
  • 继续支持 AI Dungeon 发展的 Patreon 支持者
  • 像 Cortex 这样的开源项目曾经支持 AI Dungeon

随着我们继续开发 AI Dungeon,并有可能为其他由 ML 驱动的游戏提供一个更大的平台,毫无疑问,我们的社区将继续成为我们做出决策和执行决策的驱动力。

感谢所有参与的人,请继续关注下一步。

via:https://medium.com/@aidungeon/how-we-scaled-ai-dungeon-2-to-support-over-1-000-000-users-d207d5623de9

本文分享自微信公众号 - AI研习社(okweiwu),作者:skura

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 资料 | 微软推出 AI 开发免费电子书,手把手教你构建智能聊天机器人

    雷锋网 AI 研习社按,日前,微软推出 AI 开发者免费电子书,教导大家利用微软 AI 平台开发智能聊天机器人。雷锋网看到,该电子书不长,核心内容共有四十多页,...

    AI研习社
  • 学界 | 焦虑还是谦虚?从德国 AI 会议里读懂「欧洲 AI 情结」

    AI 科技评论按:2019 年 5 月 16 号,柏林天气阴。倒着 6 小时时差的 AI 科技评论记者,在当地时间不到 10 点,已出现在 Französisc...

    AI研习社
  • AI 崛起的第九个年头,还有哪些大有可为的地方?

    从2012年算起,人工智能的再次爆发已经进入了第九个年头,人们对“人工智能是什么”也从最初的懵懂、憧憬、恐惧,逐渐走向深度的认识。在2018年人们还在讨论人工智...

    AI研习社
  • 《足球经理2018》这游戏据说特AI

    问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 还有几天,《足球经理2018》就将正式发售。 AI遍及这款游戏的每一个角落。 “我们一直在游戏中...

    量子位
  • 人工智能可以促进经济繁荣?

    人工智能(AI)无疑正在重新定义整个商业界的规则,但它对于整体经济将带来什么样的影响,还有待观察;加拿大现在也正在投资AI技术研发,期望能有利于国家发展。 现隶...

    机器人网
  • 腾讯云北京技术沙龙邀请函:AI技术全面场景化落地实践

    随着相关技术的突破发展以及国家产业政策的大力扶持,人工智能技术以及应用实践已然出现了向上的趋向。作为未来科技发展的重要方向和必然趋势,AI 技术将深入人们生活的...

    Python中文社区
  • 不是男人也要上100层:Unity专为AI开发了游戏,还启动了10万美元挑战赛

    最近,Unity和谷歌云合作开发了一个新的游戏,叫障碍之塔 (Obstacle Tower) 。

    量子位
  • 别吹了,AI的泡沫快被吹破了

    别看现在的AI虽然已经63岁了,智力却连3岁都不到,但它给人类的孤独增加了许多话题。

    AI算法与图像处理
  • 马上进入2018年了,但愿你还有被剥削的价值!因为AI失业潮真的开始了...

    2017年12月3日,乌镇。 百度掌门人李彦宏在个人演讲秀中讲了这么一件事: “去年我在这里(营长注:‘这里’指乌镇)说‘移动互联网已经结束了’,当时大多数人都...

    AI科技大本营
  • 【中国强势打造世界新智极】AI、量子计算、区块链三位一体,25位AI领袖预测智能大跃迁 | 新智元峰会

    精彩回顾 2018 新智元产业跃迁AI技术峰会圆满结束,点击链接回顾大会盛况: 爱奇艺 http://www.iqiyi.com/l_19rr3aqz3z.h...

    新智元

扫码关注云+社区

领取腾讯云代金券