首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI:人工智能程序Dota2的5V5比赛中击败人类玩家

它在几轮中轻松击败三队,并且在前三场比赛对阵第四第五队中赢得了两场,分别是第四第五小队。 不可否认,OpenAI Five少数几个领域占据了一席之地。...而象棋通常在40次移动结束,围棋则是150次移动,几乎每一次都是战略性的。 部分观察状态。队伍建筑物只能看到他们周围的区域。地图的其他部分隐藏在雾中,敌人和他们的战略也不可见。...选择不同的操作和目标以了解OpenAI Five如何编码每个动作,以及它如何观察世界。图像显示了人类会看到的场景。 ? OpenAI Five可以对缺少与它所看到的相关的状态片段做出反应。...为了强制战略空间进行探索,训练期间(并且只训练期间),我们随机化了单位的属性(健康,速度,开始水平等),并且它开始殴打人类。...我们不知道它是否可以实现,但我们相信,通过努力工作我们就有机会实现它。 这篇文章描述了截至6月6日我们系统的快照。我们将发布更新,关于超越人类的表现,并在完成项目后撰写关于我们最终系统的报告。

70940

【重磅】马斯克的AI野心——OpenAI Gym系统深度解析

2016年4月28日,Open AI 对外发布了人工智能一款用于研发比较强化学习算法的工具包 OpenAI Gym,正如 Gym 这词所指的意思(健身房)一样,在这一平台上,开发者可以把自己开发的AI...算法拿出来训练展示,获得专家和其他爱好者的点评,共同探讨研究。...基于策略的算法基于Q函数的算法核心上非常相似,我们可以用神经网络来表示策略Q函数。...他们可以访问不同环境的分数板并下载其上的解决方案代码,随后自行验证这些解决方案(这是一个非常重要并且实用的功能!)并做修改。 AI研究者将能运用其中包含的环境进行RL研究。...我们将会使用GPU来为大规模任务训练神经网络,并且我们也预期我们的许多用户也会这么做。 更现实的环境渲染是否有助于让学习迁移到现实世界?

1.2K90
您找到你想要的搜索结果了吗?
是的
没有找到

OpenAI公开Dota 2论文:胜率99.4%,「手术」工具连续迁移训练

训练期间,环境中的某些属性经过了随机化处理,包括游戏中的英雄英雄购买的物品。因为与人类对手对战时会出现各种不同的战略情况,所以为了保证稳健性,必须进行足够多样化的训练。...另一方面,尽管 OpenAI 已经尽力确保模型获得的所有信息都是人类可以获得的所有信息,但人类每个时间步不可能同时看完所有可用信息——人类必须主动点击地图状态指示器的不同部分才行。...OpenAI 已经开发出了能尽可能准确地实现公式(1)的工具(如添加观察、扩展层其它情况);而当对环境、观察空间或动作空间的修改类型无法完全满足准确实现的标准时,也可以近似地实现它。 ?...表 1: OpenAI Five 训练期间执行过的所有成功的「手术」重大的环境改变 「手术」能在无损性能的同时实现连续的训练(见图 4)。 ?...OpenAI 团队的想法是希望验证最终的代码超参数可以重现 OpenAI Five 的性能,因此他们就此停止了训练

89810

OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

Necrophos OpenAI Five 可以对其丢失的状态片段作出反应,这些状态片段可能与它所看到的相关。... 2017 年,我们第一个智能体击败了机器人,但仍然不能战胜人类。为了强制策略空间中进行探索,我们有且仅在训练期间对这些单位的属性(生命、速度初始等级等)进行了随机化,然后它开始与人类对战。...与前面三支队伍的比赛中,OpenAI 取得了胜利,输给了后面的两只队伍(只赢了开场三局)。...我们可以从头开始学习卡兵。对 1v1 来说,我们使用传统的强化学习一个卡兵奖励(a creep block award)来学习卡兵。我们的一个同事去度假(去未婚妻求婚!)...我们不知道它是否可以实现,但是我们相信通过自身的努力(运气),机会还是很大的。

48620

OpenAI 玩Dota 25v5比赛中击败人类玩家

Necrophos OpenAI Five 可以对其丢失的状态片段作出反应,这些状态片段可能与它所看到的相关。... 2017 年,我们第一个智能体击败了机器人,但仍然不能战胜人类。为了强制策略空间中进行探索,我们有且仅在训练期间对这些单位的属性(生命、速度初始等级等)进行了随机化,然后它开始与人类对战。...与前面三支队伍的比赛中,OpenAI 取得了胜利,输给了后面的两只队伍(只赢了开场三局)。...我们可以从头开始学习卡兵。对 1v1 来说,我们使用传统的强化学习一个卡兵奖励(a creep block award)来学习卡兵。我们的一个同事去度假(去未婚妻求婚!)...我们不知道它是否可以实现,但是我们相信通过自身的努力(运气),机会还是很大的。 原文地址:https://blog.openai.com/openai-five/ ?

54330

OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

我们可以 OpenAI 网站上选择不同的行动目标以理解 OpenAI Five 是如何编码每一个行动,以及如何观察世界的。下图展示了人们可能会观察到的场景: ?...Necrophos OpenAI Five 可以对其丢失的状态片段作出反应,这些状态片段可能与它所看到的相关。... 2017 年,我们第一个智能体击败了机器人,但仍然不能战胜人类。为了强制策略空间中进行探索,我们有且仅在训练期间对这些单位的属性(生命、速度初始等级等)进行了随机化,然后它开始与人类对战。...我们可以从头开始学习卡兵。对 1v1 来说,我们使用传统的强化学习一个卡兵奖励(a creep block award)来学习卡兵。我们的一个同事去度假(去未婚妻求婚!)...我们不知道它是否可以实现,但是我们相信通过自身的努力(运气),机会还是很大的。 文章来源:机器之心 文章编辑:小柳

42520

疫情之下,健身场馆如何运用大数据妥善自救,迎接产业“春天”|腾讯SaaS加速器·学员动态

健身门店在此次疫情中可以说受到“重创”,由于高昂的房租人力成本,疫情期间部分健身门店开始出现欠薪、裁员、甚至闭店等情况。 每年的春节过后,本应该是健身行业回暖的时候,但今年却因疫情显得异常冷清。...采取具体措施要明确场馆目前的财务状况:场馆还剩多少钱?未来三个月预计支出多少?以及未来三个月的收益预估是多少?...对于暂时停摆的场馆,这段时间刚好可以好好做一次门店的综合健康度诊断,打磨团队内功,以更好的状态迎接下半年的爆发竞争。 如何进行综合健康度诊断?...对于数据较好的门店或者只有一家健身门店,可以情况允许的情况下选择复工营业。 但复工也要做好预算,一旦复工,将要面临持续支出有多少、有多少收益、能否达到持平等数学计算问题。...教练大数据 降低成本是疫情期间每个创业者首要考虑的因素,私教作为健身场馆重要收入来源之一,疫情期间也基本停滞,这时可以通过数据将门店教练做一次评估,可以从日常的表现如迟到早退现象,月均销售量、耗课量、单价

54210

无需写代码能力,手搓最简单BabyGPT模型:特斯拉AI总监新作

我们知道,OpenAI 的 GPT 系列通过大规模训练的方式打开了人工智能的新时代,然而对于大多数研究者来说,语言大模型(LLM)因为体量算力需求而显得高不可攀。...它在序列「111101111011110」上训练了 50 次迭代,Transformer 的参数架构修改了箭头上的概率。...例如我们可以看到: 训练数据中,状态 101 确定性地转换为 011,因此该转换的概率变得更高 (79%)。但不接近于 100%,因为这里只做了 50 步优化。...状态 111 以 50% 的概率分别进入 111 110,模型几乎已学会了(45%、55%)。 训练期间从未遇到过像 000 这样的状态,但具有相对尖锐的转换概率,例如 73% 转到 001。...如果在训练期间从未遇到过这些状态,它们的出站箭头不应该是 50% 左右吗?这看起来是个错误,但实际上是可取的,因为部署期间的真实应用场景中,几乎每个 GPT 的测试输入都是训练期间从未见过的输入。

66750

无需写代码能力,手搓最简单BabyGPT模型:特斯拉AI总监新作

我们知道,OpenAI 的 GPT 系列通过大规模训练的方式打开了人工智能的新时代,然而对于大多数研究者来说,语言大模型(LLM)因为体量算力需求而显得高不可攀。...它在序列「111101111011110」上训练了 50 次迭代,Transformer 的参数架构修改了箭头上的概率。...例如我们可以看到: 训练数据中,状态 101 确定性地转换为 011,因此该转换的概率变得更高 (79%)。但不接近于 100%,因为这里只做了 50 步优化。...状态 111 以 50% 的概率分别进入 111 110,模型几乎已学会了(45%、55%)。 训练期间从未遇到过像 000 这样的状态,但具有相对尖锐的转换概率,例如 73% 转到 001。...如果在训练期间从未遇到过这些状态,它们的出站箭头不应该是 50% 左右吗?这看起来是个错误,但实际上是可取的,因为部署期间的真实应用场景中,几乎每个 GPT 的测试输入都是训练期间从未见过的输入。

35110

OpenAI如何利用强化学习破解现实决策问题的复杂性连续性

OpenAI Five大幅提升了当前的强化学习技术,将其提升到可以从每2秒200万帧批次中学习。我们开发了分布式训练系统工具以支撑我们持续10个月对OpenAI Five的训练。...通过打败Dota 2的世界冠军队伍OG,OpenAI Five证明了自我对抗强化学习可以复杂任务上超越人类表现。 背景 AI长期以来的目标就是解决现实世界的高阶挑战。...Dota2是一种多玩家实时策略游戏,由Valve公司2013年发布,2013年到2019年期间,平均有50万到100万在线玩家。...优化器将参数更新发布到控制器向传输GPU集群,实现对参数的及时更新。机器数量论文的4.2节进行了描述。OpenAI Five使用的机器数量在这个规模到3倍之间波动。...训练过程中会通过Surgery工具集进行持续的迁移。 启示 这次成功的尝试揭示了提高算力持续训练对强化学习能力提升的重要性,可以认为两个队伍参与的零连续问题中具有泛化能力。

67250

一文解析OpenAI Five,一个会打团战的Dota2 AI

时至今日,我们有了OpenAI Five,它已经可以比赛中击败业余玩家。...为了考察这个成果,7月28日,OpenAI Five会顶级玩家进行比赛,届时玩家可以Twitch上观看实况转播。 ?...我们的方法 我们使用的算法是阵子刚推出的PPO,这次用的是它的大规模版本。去年的1v1机器人一样,OpenAI Five也是从自学中总结游戏经验,它们从随机参数开始训练,不使用任何人类数据。...为了强制战略空间进行探索,训练期间(并且只训练期间),我们随机化了它的各项属性(血量、移速、开始等级等),之后它开始能战胜一些玩家。...之后我们又和业余队、半职业队进行了非正式比赛,OpenAI Five没有像预想中那样一败涂地,而是两个队的三场比赛中都赢了两场。 ?

1.9K10

2017年最后一篇推送,仍然与技术有关盘点深度学习论文年度之“最”

新提出的目标函数比标准GAN训练要稳定得多,因为它避免了训练过程中渐变消失: 使用这个修改的目标,作者还避免了一个称为模式崩溃的问题,其中标准的GAN只从可能输出的一个子集产生样本。...事实上,作者声称:“没有实验的情况下,我们看到了WGAN算法模式崩溃的证据。”例如,如果GAN正在训练产生手写数字46,则GAN可能只产生4个,并且训练期间无法逃离该局部最小值。...像OpenAI健身房这样的工具,对训练数据渴望的深度强化学习代理特别有用。它们能够产生几乎无限量的标记的训练数据。然而,大多数模拟数据对于训练真实数据上操作的深度学习系统是不够现实的。...对于深度学习应用来说,数据为王,然而大多数学术实验室都没有资源来生成快速处理新研究领域所需的大量数据:如果有一个公共数据集不存在这个问题,你可以自己收集标记数据。...最近的AlphaGo Zero论文避免了结合任何人类的知识或游戏玩法:它只通过“自我玩耍”进行训练。这是通过改进的强化学习训练程序来实现的,其中当游戏的向模拟发生时更新策略。

66190

GPT-4 重磅发布,有哪些升级变化?

例如它通过模拟律师考试,分数应试者的 10% 左右,相比之下 GPT-3.5 的得分在倒数 10% 左右。...3.1、模拟考试 为了比较模型之间的区别,各种基准测试中进行了测试,包括最初为人类设计的模拟考试。模型没有针对这些考试进行专门培训,模训练期间可能看到了考试中的少数问题,但结果仍然很具有代表性。...GPT-4 还开放了一个修改“系统提示”使用功能,可以通过与用户交互来控制模型输出的风格任务。 a)通过系统消息指定回应的范围,具备导师的能力,提出正确的问题帮助学生独立思考。...7.3、模型安全性改进 将以往现实应用中的经验引入 GPT-4 的安全研究监控中。GPT-4 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。...为了验证这种可扩展性,使用相同方法训练但使用 10,000 倍更少计算量的模型进行推断,准确预测了 GPT-4 我们内部代码库的最终损失: 准确地预测我们训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标

1.4K60

大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

Lean 于 2013 年推出,数学家可以把数学公式转换成代码,再输入到 Lean 中,让程序来验证定理是否正确。...然而,原始代码并不适合用于训练验证器,它缺乏人类使用 Lean 时可以获得的运行时信息,例如证明步骤之间的中间状态。...具有挑战性的数据分割 研究者发现,将定理随机分成训练 / 测试的常见做法导致了之前论文中高估了性能。LLM 只需训练期间记住类似定理的证明,就能证明看似困难的定理。...它把 Lean 变成了一个类似健身房的环境,在这个环境中,证明器可以观察证明状态,运行策略来改变状态,并接收错误或证明完成的反馈。...根据当前的证明状态,它可以检索出少数可能有用的前提,并根据状态检索出的前提的连接情况生成一个策略。证明定理时,该模型每一步都会生成多个策略候选者,这些候选者被用于标准的最优搜索算法来寻找证明。

27210

GPT4发布,有哪些升级应用?

例如它通过模拟律师考试,分数应试者的 10% 左右,相比之下GPT-3.5 的得分在倒数 10% 左右。...模型没有针对这些考试进行专门培训,模训练期间可能看到了考试中的少数问题,但结果仍然很具有代表性。各种专业学术基准上表现出人类水平。...GPT-4还开放了一个修改“系统提示”使用功能,可以通过与用户交互来控制模型输出的风格任务。...6.3、模型安全性改进将以往现实应用中的经验引入GPT-4 的安全研究监控中。GPT-4 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。...为了验证这种可扩展性,使用相同方法训练但使用 10,000 倍更少计算量的模型进行推断,准确预测了 GPT-4 我们内部代码库的最终损失:图片准确地预测我们训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标

4.5K432

OpenAI训练大型神经网络的四种基本方法

最近,曾推出大规模预训练模型 GPT-3 的 OpenAI 发表了一篇博文,介绍了基于 GPU 的四种节省内存的并行训练方法,分别是: 数据并行——不同的 GPU 上运行同一批次的不同子集; 流水线并行...在前向传递期间,worker 只需将其层块的输出(称为「激活」)发送给下一个 worker;反向传递期间,它仅将这些激活的梯度发送给一个工作人员。...例如,方法 GPipe 是让每个工作进程连续向前向后传递,然后最后同步聚合来自多个微批次的梯度;而 PipeDream 会安排每个 worker 交替处理的后向通道。...检查点(也称为激活重新计算)存储激活的任何子集,并在反向传递期间,及时重新计算中间的激活,以最多一个额外完整向传递的计算成本,节省了大量内存。...这个想法的一个实现是ZeRO,它可将参数、梯度优化器状态分割到所有可用的硬件上,并根据需要将它们具体化。

1.2K41

程序员拯救乐坛?这个AI会用10种乐器演奏不同风格音乐

MuseNet 了解很多不同的音乐风格,我们可以用新颖的方式融合生成作品。此处展示的样本里,给定肖邦夜曲的 6 个音符,要求模型用钢琴、鼓、贝斯吉他生成一段流行风格的作品。...训练期间,这些作曲家和乐器 token 被预先添加到每个样本中,因此模型会学习利用这一信息进行音符预测。...但是,我们可以轻易地听到模型是否可以按照成百上千的 token 顺序来获取长期结构。一个音乐模型是否通过改变节奏而打乱自身结构会更显而易见,而文本模型是否出现了短暂偏离则没有那么明显。... token 嵌入空间中使用 mixup OpenAI 还创建了一个内部评测:训练期间,要求模型预测给定的样本是出自数据集或是模型之前生成的样本。该评测分数被用来在生成作品时选择样本。...接下来,OpenAI 为和弦中的每个音符添加了一个嵌入(这是模仿相关注意力,因为这样可以让模型更容易学到:音符 4 需要回看音符 3,或者回顾一个和弦的音符 4)。

54120

OpenAI秘籍披露:一篇文章教会你训练大型神经网络

OpenAI一篇文章总结:除了显卡要多,算法也很重要! 如今AI的很多进步都要归功于大型神经网络,尤其是大公司研究机构提供的预训练模型更是推动了下游任务的进步。...每个batch数据的平均梯度、参数一些每个参数的优化状态被传递给一个优化算法,比如Adam可以计算下一个迭代的参数(在你的数据上应该有更好的性能)新的每个参数的优化状态。...在前向传递期间,worker只需要将其大块层的输出(也叫激活)发送给下一个worker;在后向传递期间,它只将这些激活的梯度发送给一个worker。...GPipe的做法是让每个worker连续地处理后向的传递,然后最后同步地聚合来自多个微批的梯度。而PipeDream则安排每个工作者交替地处理后向通道。...这种方式可以节省大量的内存,而计算成本最多就是多出一个完整的向传递。我们也可以通过选择性的激活再计算来不断地计算内存成本之间进行权衡,也就是检查那些存储成本相对较高但计算成本较低的激活子集。

62820
领券