首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何让预先指定数量的智能体在模拟开始时停留在一个区域等待接机?

要让预先指定数量的智能体在模拟开始时停留在一个区域等待接机,可以通过以下步骤实现:

  1. 创建一个模拟环境:使用云原生技术,可以利用容器化平台(如Docker)创建一个模拟环境,以便在其中运行智能体。云原生技术可以提供高度可扩展性和灵活性,使得模拟环境可以根据需要进行动态调整。
  2. 设定智能体的初始位置:在模拟环境中,可以通过编程方式设定智能体的初始位置。可以使用前端开发技术(如HTML、CSS、JavaScript)创建一个可视化界面,通过拖拽或输入坐标等方式指定智能体的初始位置。
  3. 控制智能体的行为:使用后端开发技术,可以编写控制智能体行为的代码。根据需求,可以设定智能体在指定区域内等待接机的行为逻辑,例如设置智能体在指定区域内随机移动或保持静止。
  4. 进行软件测试:在开发过程中,进行软件测试是必不可少的。可以使用软件测试技术(如单元测试、集成测试、系统测试)来验证智能体在模拟环境中的行为是否符合预期。
  5. 部署和运维:使用服务器运维技术,将模拟环境部署到云服务器上,并进行运维管理。可以使用自动化运维工具(如Ansible、Chef、Puppet)来简化部署和管理过程,确保模拟环境的稳定运行。
  6. 保障网络通信和安全:在模拟环境中,智能体可能需要与其他系统或设备进行通信。可以利用网络通信和网络安全技术,确保智能体与其他系统之间的可靠通信,并保护通信过程中的数据安全。
  7. 处理音视频和多媒体:如果智能体需要处理音视频或多媒体数据,可以利用音视频处理和多媒体处理技术,对相关数据进行编解码、压缩、转码等操作,以满足智能体的需求。
  8. 应用人工智能和物联网技术:根据智能体的具体需求,可以应用人工智能和物联网技术。例如,可以利用机器学习算法对智能体的行为进行优化,或者通过物联网设备与智能体进行交互。
  9. 移动开发和存储:如果需要在移动设备上运行智能体,可以利用移动开发技术(如Android开发、iOS开发)进行开发。同时,需要考虑智能体数据的存储和管理,可以使用数据库技术(如MySQL、MongoDB)进行数据存储。
  10. 区块链和元宇宙:区块链技术可以用于确保智能体行为的可信度和不可篡改性,元宇宙技术可以提供一个虚拟的交互环境,使智能体能够在其中进行交互和合作。

腾讯云相关产品和产品介绍链接地址:

  • 云原生技术:腾讯云容器服务(https://cloud.tencent.com/product/tke)
  • 前端开发:腾讯云静态网站托管(https://cloud.tencent.com/product/scf)
  • 后端开发:腾讯云云函数(https://cloud.tencent.com/product/scf)
  • 软件测试:腾讯云测试云(https://cloud.tencent.com/product/ttc)
  • 数据库:腾讯云数据库(https://cloud.tencent.com/product/cdb)
  • 服务器运维:腾讯云云服务器(https://cloud.tencent.com/product/cvm)
  • 网络通信和网络安全:腾讯云负载均衡(https://cloud.tencent.com/product/clb)、腾讯云安全加速(https://cloud.tencent.com/product/cdn)
  • 音视频和多媒体处理:腾讯云音视频处理(https://cloud.tencent.com/product/mps)
  • 人工智能:腾讯云人工智能(https://cloud.tencent.com/product/ai)
  • 物联网:腾讯云物联网(https://cloud.tencent.com/product/iotexplorer)
  • 移动开发:腾讯云移动开发(https://cloud.tencent.com/product/mobdev)
  • 存储:腾讯云对象存储(https://cloud.tencent.com/product/cos)
  • 区块链:腾讯云区块链(https://cloud.tencent.com/product/baas)
  • 元宇宙:腾讯云元宇宙(https://cloud.tencent.com/product/mu)
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

斯坦福爆火「小镇」开源,25个AI智能恋爱交友|附保姆级教程

而在今年4月,斯坦福和谷歌研究者竟然构建出了一个虚拟小镇,25个AI智能在其中生存、从事复杂行为,简直堪称是《西部世界》走进现实。...而检索功能有多种可能实现方式,具体取决于智能决定如何行动时考虑重要因素。 生成式智能架构面临一个核心挑战,就是如何管理大量必须保留事件和记忆。...执行规划过程中,生成智能体会持续感知周围环境,并将感知到观察结果存储到记忆流中。 通过利用观察结果作为提示,语言模型决定智能下一步行动:继续执行当前规划,还是做出其他反应。...一个有趣故事是,模拟开始时一个智能初始化设定是自己需要组织一个情人节派对。 随后发生一系列事情,都可能存在失败点,智能可能不会继续坚持这个意图,或者会忘记告诉他人,甚至可能忘了出现。...定制模拟 你有两种可选方式来自定义模拟。 方法1:编写并加载智能历史 第一种是模拟开始时初始化具有独特历史记录智能

40810

Dota之后,《王者荣耀》也被AI攻陷,势把人类顶级玩家拉下马

为了模拟这个过程,我们提出了一个两层宏观策略架构,即阶段层和注意力层: • 阶段层负责识别当前游戏阶段,以便注意力层可以更好地了解应该注意位置。...注意力层 与玩家根据游戏地图做出决策方式类似,注意力层会预测智能移动最佳目标区域。但是,从数据中判断出玩家目的地在哪里是很困难。我们观察到,发生攻击动作区域可以指示玩家英雄移动目的地。...根据这一观察,我们将地面真实区域定义为玩家进行下一次攻击区域。如图所示。 设s为包含多个帧游戏中一个会话,s-1表示s之前会话。 s - 1是游戏中一个会话。ts成为s起始框架。...请注意,会话以攻击行为结束,因此英雄进行攻击ts中存在区域y。如图所示。s-1标签是ys,而s标签是ys + 1。直观地说,以这种方式设置标签,是希望智能学会在游戏开始时移动到ys处。...我们不会将其他资源(如英雄、小兵和中立生物)视为主要目标,因为通常这些资源是为了实现更大目标,例如摧毁炮塔或基地。 对多智能通信模拟智能通信对于智能团队合作至关重要。

52630

Dota之后,《王者荣耀》也被AI攻陷,势把人类顶级玩家拉下马

为了模拟这个过程,我们提出了一个两层宏观策略架构,即阶段层和注意力层: • 阶段层负责识别当前游戏阶段,以便注意力层可以更好地了解应该注意位置。...注意力层 与玩家根据游戏地图做出决策方式类似,注意力层会预测智能移动最佳目标区域。但是,从数据中判断出玩家目的地在哪里是很困难。我们观察到,发生攻击动作区域可以指示玩家英雄移动目的地。...根据这一观察,我们将地面真实区域定义为玩家进行下一次攻击区域。如图所示。 设s为包含多个帧游戏中一个会话,s-1表示s之前会话。 s - 1是游戏中一个会话。ts成为s起始框架。...请注意,会话以攻击行为结束,因此英雄进行攻击ts中存在区域y。如图所示。s-1标签是ys,而s标签是ys + 1。直观地说,以这种方式设置标签,是希望智能学会在游戏开始时移动到ys处。...我们不会将其他资源(如英雄、小兵和中立生物)视为主要目标,因为通常这些资源是为了实现更大目标,例如摧毁炮塔或基地。 对多智能通信模拟 ? 多智能通信对于智能团队合作至关重要。

57540

人工智能导论 --- 绪论

, 主要流派有: 思维理论 : 智能核心是思维 知识理论:智能取决于知识数量以及一般化程度 。...行为能力–信息输入 1.1.3 人工智能 人工智能 :用人工方法 机器上实现 智能 ; 人工智能学科 : 一门研究如何构造智能机器或智能系统,使他能够模拟,延伸,扩展 人类智能学科 。...自然语言理解 研究如何计算机理解人类语言,包括回答问题,生成摘要,翻译等。 1957年,苏联人造卫星成功发射刺激下,美国国家研究会大力支持对俄科技论文计算机翻译。...2014年2月新闻: 麻省理工教授 开发一种智能化编程语言 “SKetch”,可以自动填补,修正代码内容,几秒内修复代码,程序员可以忽略许多繁琐细节。...组合优化问题 人工神经网络 一个大量简单处理单元经广泛连接而组成的人工网络,用来模拟大脑神经系统结构和功能。

81010

深度强化学习智能交通 (III) :Deep RL 交通信号灯控制中应用

我们可以根据智能数量将基于学习模型分为两类:单智能 RL,使用一个智能为整个 TSC 网络学习最优策略;多智能RL,交通网络中使用多个智能获得最优策略。...A 标准 RL 应用 1) 单智能 RL 20世纪90年代后半页,使用一个可学习智能来优化交叉口研究得到研究人员极大关注。智能通过与一个模拟环境进行交互来学习交叉口交通最优控制策略。...Chu等人[96]提出了一个适用于大规模交通网络区域到中心智能 R L模型。低流量密度下,作者认为对于大规模网络,区域间不需要协作,即在局部区域学习流量模型就足以获得全局合适学习。...另一篇论文中,Jang 等人[43]讨论了如何通过基于 Java AnyLogic 多用途模拟器将 DQN 智能与交通模拟器集成。...将一个大系统划分为若干个子集,其中每个局部区域由 RL 智能控制。全局学习是通过将学习策略传递给全局智能来实现

2.7K32

个推SDK:运用地理围栏技术,为客户推送无打扰智能信息

问问身边亲朋好友,尤其是那些非互联网从业背景伙伴什么是“大数据”,你会发现,他们中相当一部分对此认知中还停留在“我某平台注册信息、我发过朋友圈、我浏览记录”等等线上行为阶段,殊不知,上亿个群体每分每秒产生位置及地理信息汇集而成大数据正链接着虚拟时空和现实世界...四、针对物联网安防类,新科技幼儿园监护儿童、养老院看护老人有了新“玩法”;亦可用于办公地实时监控资产位置,一旦标的物离开圈定区域即触发提醒或警报。 ?...针对目前市面上多数第三方消息推送服务商,系统未深度定制情况下,通常不支持推送人群地理范围精确到商圈写字楼等较小区域,而地理围栏技术可以很好地弥补这一点。...当目标受众设定时间段内到达机场时,将会自动收到一条推送消息——“一张三折接机券已放入您账户中,豪华商务经济,多种车型任性选!”...受众有用车需要第一时间奉上有诚意解决方案,应景而贴心,用户无法”Say no”。

1.4K30

一块V100运行上千个智能、数千个环境,这个「曲率引擎」框架实现RL百倍提速

实验结果表明,与 CPU+GPU RL 实现相比,WarpDrive 靠一个 GPU 实现 RL 要快几个数量级。 深度强化学习是一种训练 AI 智能强大方法。...然而,如何将强化学习应用于多个智能或高维状态、观察结果、行动空间等复杂场景仍然是一个具有挑战性问题。多智能体系统是强化学习研究和应用前沿,尤其是那些存在多个智能交互系统。...这在无模型设置中是最突出,在这种设置中,强化学习智能训练时通常对当前模拟或任务没有任何初始知识。...综合来看,这些设计选择使得运行数千个并发模拟成为可能,每个模拟包含数千个智能非常大批次上进行训练。...这在多智能 RL 中非常有用,因为可以完全将智能体操作并行化,因此模拟时间复杂度保持不变,即使智能数量增加(达到可用线程数量)。 7.

46810

AI产生自我意识,「古墓丽影」劳拉觉醒!电子游戏革命来了

就在前几天,爆火AI社区斯坦福智能小镇正式开源。25个各具个性AI智能「西部世界」一般沙盒虚拟城镇中生活、上班、交友。 所以,或许这就是电子游戏未来?...如何这个AI智能Lara Croft游戏中真正产生自我意识? Formaster经过以下几个步骤探索,终于成功了。 学习游戏规则 首先第一步,叫她学会游戏规则。...作者Lara按照给出方式去练习,像人类玩家一样完成各个阶段教程。 教程Lara离开泳池时结束,所以可以在那时重启程序,做出改进。 开始时,改进Lara非常困难。...这个办法起作用力,AI智能终于相对不错时间内,完成了教程。 然而,还存在一个问题:Lara经常卡在一个位置,而且每个关卡都是由静态元素组成,因此只有一条优化路径。...这人觉得,写对话的人工智能和控制角色的人工智能是同一个人。 前不久斯坦福AI智能小镇开源时,网友们就十分激动,觉得AGI已来,各种RPG和模拟类游戏都会很快用上这种技术。

15730

或许是市面上最强 Mock 工具

开发过程中,由于后端与前端并行开发,或者前端需要等待后台开发,难以保证对接效率,同时即使用开发好 API 对接,也有可能一个 API 不通就阻塞了整个软件对接工作。...简单地说, Mock 是指在测试期间,为一些难以构建或不易获得对象,创建一个虚拟物体进行测试。而这个虚拟物体就是模拟物体,模拟对象是调试过程中实际对象替代。...Mock 功能优势:前端对接不依赖后端: 前端工程师独立于后端进行开发。增加测试真实性: 通过随机数据,模拟各种场景。... Mock 规则区域,可直接在 Mock 规则输入框中填写固定值,Mock API 调用时直接返回其固定值。智能内置 Mock特点:智能识别常用返回参数,自动填入预置 Mock规 则。...你可以通过智能自定义 Mock 配置,使得你文档中编写某个字段名后,系统自动填入对应 Mock 规则。实现字段 Mock 规则一次配置,永久复用。大大提高了工作效率,您在工作中游刃有余。

1K30

全球首个「自我复制」活体机器人诞生,科学家一个目标是什么?

大家印象中机器人是不是还停留在铜头铁额机械? 亦或是由钢筋混凝土或者粗重木头制成庞然大物? 这不,科学家马上安排了一批活体机器人,划重点,全球首批!...非洲爪蟾蛙中,这些胚胎细胞会发育成皮肤,附在在蝌蚪外面,从而阻挡病原体并重新分配粘液。但研究团队将这些细胞置于一个环境中,它们有机会重新想象自身多细胞性。...实际上,系统持续繁殖是非常困难,但借助超级计算机集群上运行AI程序,进化算法能够模拟环境中测试数十亿种体型,比如三角形、正方形、金字塔、海星,用来找到基于运动「运动学」复制中更有效细胞。...或许正如科学家们《美国国家科学院院刊》研究中所写那样:生命在表面之下隐藏着令人惊讶行为,等待被发现。 3 下一个目标是什么?...这些问题存在是因为我们不知道们不知道如何预测和控制细胞群构建。 诚如研究人员所说,「在生命表面之下,还隐藏着更多令人惊讶行为,等待我们去发现。」

23810

有料 | 无人驾驶登机桥首次深圳试行

每架飞机落地后,人们总会看到一台或多台长达10多米至30多米登机桥慢慢滑动并伸缩调节,直至靠近并精准对准接机舱门,登机桥口都有一位“驾驶员”像开车一样操作台上进行现场操控。...“如何从运动控制上平衡这样大型桥自身运动惯量,需要大量基础数据验证从而优化运动控制方法。” 中集天达运作事业部副总经理梁乐贤说。...近几年,总部位于深圳中集荷兰阿姆斯特丹机场、阿联酋迪拜机场、上海虹桥机场等机场登机桥中,已陆续尝试上述部分核心技术现实中得到应用和验证,最终促成无人驾驶智能登机桥全面突破,达到可靠集成应用阶段...这将使得登机桥对接飞机时间从3分钟降至1分钟,加快登机桥运营效率和机位周转效率,同时,技术应用将大量减少现场操作人员数量智能化水平提升最终因效率提升和成本降低整体机场运营受益。...航空智能化市场前景看好 登机桥智能化是航空智能化发展时代一个缩影,当飞机变得越来越智能时,地面航空设备智能化数据对接和智能应用也将充满想象力。

86280

综述:CFD未来之路

1970年代面临主要问题,是跨音速流计算。 这是因为商用飞机最有效巡航速度,是跨音速范围内、冲击波形成阻力上升开始时。而战斗机也跨音速范围内飞行。...3.png 1990年代 90年代,计算机速度和存储容量进一步提升,使得使用雷诺平均Navier-Stokes(RANS)方程与各种湍流模型进行模拟成为可能。...4.png 然而,在过去15年里,CFD航空应用仍然停留在RANS。正如下一节所讨论,这是因为LES或DNS进一步发展,仍然需要计算机速度和内存数量级提升。...除了航空航天,海洋,风能、以及汽车领域,这些应用涉及到低马赫数不可压缩流。许多问题与钝周围流动有关,这是现有RANS方法难以准确预测。...目前,CFD高阶方法广泛应用需要进一步研究,其受到阻碍包括: (1)隐式算法高内存要求; (2)高度复杂网格生成; (3)缺少高精度壁面函数模型; (4)如何普通研究生可以非常容易植入这些算法

1.7K30

SGADC2019丨服务机器人在华为分布式场景下应用

我周围是什么 3.我如何去往目的地 这三个问题分别对应定位、建图、自主导航三类技术。机器人领域,有一个专门研究:实时定位与地图构建,也就是SLAM。...视频1 2 —华为终端与机器人开发— 如何功能更简单,避免开发者开发时耗费精力,这就需要华为终端分布式能力与机器人开发结合。移植后,终端手机和平板侧,是我们机器人显示终端、操控手柄、配置工具。...1.摄像头信息展示 传统方式:启动机器人等待WIFI就绪→手机连接机器人自带无线路由WIFI→打开APP,调用专门开发服务层摄像头服务接口获取实时图像信息,稳定性和实时性差。...真正难点是在于大家如何去用它,如何大家都在这个基础上去做。...GitHub上,ROS中文平台代码量是最大,几十万群体里面开发者居多,更多是停留在机器人爱好者层面。

74710

go请求追踪神器go tool trace

可以通过 view trace链接提供其他可视化功能,对于诊断问题帮助极大 开始写一个DEMO GOMAXPROCS设置可以同时执行cpu最大数量,此处我们设置为 1 个 server.go package...虚拟处理器 每个虚拟处理器显示一行,虚拟处理器数量一般默认为系统内核数。 协程和事件 显示每个虚拟处理器上有什么 Goroutine 正在运行,而连线行为代表事件关联。...唤出帮助手册 点击PROC颜色区域 可以看到该处理器此段时间再做什么事情,如图 tag 说明 Start 开始时间 Wall Duration: 持续时间 Self Time 执行时间 Start...User-defined tasks 点击Count goroutine view 点击颜色区域 即可看到此段时间调用栈,开始时间,结束时间,以及用户定义任务开了多少个协程等等 User-defined...tasks 点击Count 点击goroutine view 点击颜色区域 即可看到此段时间具体执行什么动作,具体信息如下 用户自定义区域如何查看呢?

88640

算法金 | K-均值、层次、DBSCAN聚类方法解析

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,更多人享受智能乐趣」接微*公号往期文章:10 种顶流聚类算法,附 Python 实现聚类分析概述聚类分析定义与意义聚类分析...:图像处理领域,聚类分析可以用于图像分割,将图像分成具有相似像素特征区域异常检测:聚类分析可以帮助识别数据中异常点,这在金融欺诈检测、网络入侵检测等方面有重要应用文本聚类:自然语言处理领域,聚类分析可以用于文本聚类...如何选择适合聚类方法实际应用中,选择适合聚类方法需要考虑以下因素:数据集规模:对于大规模数据集,优先选择计算复杂度较低方法,如K-均值。...计算资源:层次聚类计算复杂度较高,适用于小规模数据集。计算资源有限情况下,可以选择K-均值。对簇数预知:如果不能预先确定簇数量,可以选择层次聚类或DBSCAN。...,不确定是常态全网同名,日更万日,更多人享受智能乐趣如果觉得内容有价值,烦请大侠多多 分享、在看、点赞,助力算法金又猛又持久、很黄很 BL 日更下去;同时邀请大侠 关注、星标 算法金,围观日更万日,

48100

高科技强化对抗学习

DeepMindAI学会了画画,利用强化学习完全不需人教 ? 如何计算机自动模仿梵高油画?DeepMind给出了一个强化学习方法。...但是你用文字描述,什么是梵高风格,却很难清晰地界定。 如何电脑自动模仿梵高油画?DeepMind 想了一个办法。 1.用强化学习算法,像走迷宫那样,画布上涂抹颜色。...本研究中,我们为人工智能(artificial agents)配置了用来生成图像工具。...第一组实验中,我们训练agent生成类似MNIST数字图像:我们它观察数字模样,而不是教它如何画出这些数字。...从原始感知中找出有结构表征是人类与生俱来一种能力,现实生活中我们经常使用这种能力。本研究中,我们证明了:通过赋予AI我们再创造世界所用工具,我们可以智能学习生成类似的表征。

78330

学界 | Facebook 最新研究:自主学习一个会和世界互动智能

在工作中学习 为了训练和评估这些智能,所需虚拟环境不仅仅要具备交互功能,还要具备多样化和数量充足特性,以避免智能相同环境中反复运行,这对自主智能发展而言是一个更加巨大挑战。...随着不同模拟家庭中成功达到目标,智能必须发展出这种常识,以缩短寻找指定对象然后回答相关问题所花费时间。...,然后智能并没有被明确告知需要检查每一个房间,甚至没有被告知要从家中含有椅子区域开始计算。智能体能够凭借自己力量去探索和回答问题,而不需要借助人类提供详细逐步计划。...)来允许智能把它真正使命拼凑起来,即便该使命在开始时并不明晰。...自主系统更加自主 经过训练 EmbodiedQA 智能与标准序列模型基准(一个 LSTM 导航器)相比,表现相当合理。 ?

66320

智慧机场视频监控系统方案:AI智能助力机场智慧运营

停机坪布置智能监控摄像头,设置TSINGSEE青犀智能分析网关,并配备周界入侵、烟火识别、危险区域闯入等算法,监控中心云部署安防监控系统EasyCVR视频综合管理平台,接入该中心云服务下监控设备,...同时将平台接口对接机场监控总平台。...、海大宇SDK、华为、乐橙、萤石云等设备SDK等,可快捷接入IPC、NVR、视频编码器、无人机、移动执法仪、应急布控球、手持智能终端、车机设备、车载监控、智能机等前端设备。...1)重点区域人员聚集:支持对视频画面中指定区域的人体目标进行计数,当区域内人体数量超过一定阈值,产生一条结构化目标信息。...4)人员跌倒检测:支持识别人员指定区域侧卧、平躺、俯卧等疑似跌倒动作;5)人员入侵:支持识别视频画面中指定区域出现的人体目标。

40310

Atari 游戏得分提升两个数量级:Uber AI 新强化学习算法 Go-Explore

下文将继续讨论 Go-Explore 如何表示一种新型质量多样性算法。 阶段2:强化(如有必要)。如果找到解决方案对噪声鲁棒性较差,可以使用模拟学习算法将它们置于深度神经网络中。...特别是,我们通常认为确定性会阻碍产生更具鲁棒性、更高性能智能,但 Go-Explore 观点与之相反,当我们了解到模拟器是确定和可重置(通过保存和还原模拟器状态)事实后,确定性可能还有助于产生更高性能智能...然而,Go-Explore 不需要访问模拟器,访问模拟器只是为了它变得更快。 在这项工作中,当智能返回一个经随机行为探索单元格后(很可能重复以前行为)。...Uber AI 研究人员们蒙特祖玛上测试了具有领域知识 Go-Explore 版本,其中单元格被定义为智能 x-y 位置、当前房间、当前关卡和当前持有的密钥数量唯一组合。...通过这种改进状态表示, Go-Explore 第 1 阶段,智能就惊人地发现了 238 个房间,平均通过 9 个关卡,并且模拟器中,相比与缩略图单元格表示,Go-Explore 智能仅用了一半步骤就完成了该任务

49720

Atari 游戏得分提升两个数量级:Uber AI 新强化学习算法。

下文将继续讨论 Go-Explore 如何表示一种新型质量多样性算法。 阶段2:强化(如有必要)。如果找到解决方案对噪声鲁棒性较差,可以使用模拟学习算法将它们置于深度神经网络中。...特别是,我们通常认为确定性会阻碍产生更具鲁棒性、更高性能智能,但 Go-Explore 观点与之相反,当我们了解到模拟器是确定和可重置(通过保存和还原模拟器状态)事实后,确定性可能还有助于产生更高性能智能...然而,Go-Explore 不需要访问模拟器,访问模拟器只是为了它变得更快。 在这项工作中,当智能返回一个经随机行为探索单元格后(很可能重复以前行为)。...Uber AI 研究人员们蒙特祖玛上测试了具有领域知识 Go-Explore 版本,其中单元格被定义为智能 x-y 位置、当前房间、当前关卡和当前持有的密钥数量唯一组合。...通过这种改进状态表示, Go-Explore 第 1 阶段,智能就惊人地发现了 238 个房间,平均通过 9 个关卡,并且模拟器中,相比与缩略图单元格表示,Go-Explore 智能仅用了一半步骤就完成了该任务

58200
领券