首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Open AI如何用“自我对局”训练AI机器人变身“摔角王”?

为了弄清楚在这些目标和竞赛的压力面前,机器人会作出如何复杂的行动,我们不妨分析一下机器人的“摔角相扑比赛吧。...在这个比赛,为了训练机器人行走,我们比赛前期给机器人设置了丰厚的奖励;增加了从这个圆形场地中心起的负L2距离,并且将其设置为机器人获得的丰厚奖励。...机器人一开始的时候可以使用这些奖励比赛场地内作出一些动作和反应,但是我们会在训练把奖励悄悄地清零。这样一来,接下来的训练迭代,机器人才会为了得到更多的奖励,自觉地对自己的动作和技能进行优化。...此外,机器人的行为也可能会因为人类设计师设计中出现的问题而变得更复杂。通过成千上万次的迭代优化,我们能够开发出更好的机器人,进而可以创造出功能强大的AI系统,该系统能够自我引导,并完成性能自我优化。...一个案例,我们给那些经过了“摔角相扑”训练的机器人设置了一个任务,让它们强风中始终保持站立。

778110

Science发布最疯癫视频!AI守门员以最搞笑的方式让对手抓狂

人工智能一直被视为学习能力极强、学习速度极快的“超级物种”,秒杀人类不解释、无商量;无论是国际围棋比赛,还是星际争霸游戏对决,均多次战胜人类顶级选手,所向披靡,不可一世。...戳小程序查看Science完整视频“以最搞笑的方式观看AI守门员的心理状态”: 视频,“小红人”和“小蓝人”看似是“癫痫发作”,其实是展示一个人工智能(红色)以一种意想不到的方式战胜另一个人工智能(...这是发表NeurIPS(Neural Information Processing Systems)2019 上的一项研究。这项研究是模拟运动中进行的:足球、相扑及某人阻止跑步者越线的游戏。...小红人假装倒地迷惑小蓝人(相扑运动) 这张动图中,两个AI本来应该相扑(也可能是摔跤),小红人先来个假摔,小蓝人见势也马上跪倒了,简直是上演了一场“碰瓷”大戏。...但是图像增加了中间所示的噪声之后得到的右侧图像,竟然被模型识别成一只长臂猿(而且置信度还非常高)!

58810
您找到你想要的搜索结果了吗?
是的
没有找到

地铁停运和早晚高峰,空间大数据怎样拯救伦敦的交通?

6月13日的“WGDC2017-空间大数据崛起”大会上,程涛用空间大数据的视角把我们带回了一个个日常出行场景,告诉我们如何求解。...(图片说明:程涛WGDC2017大会上分享英国伦敦大学学院时空实验室的研究成果,来源:泰伯网) ▍鲜有四车道的伦敦,如何防止大量单车堆路边 如果大量自行车停在路边或者被骑上了路,对城市整体路面交通会有什么影响...对于不能自平衡的站点,他们就可以通过现有的供需实时数据来判断如何调整不同区域的车辆放置数量。 ▍拥挤?维修?...有些地铁线路周末要进行维修,当地铁站关闭,伦敦政府都会提供其他公交车等出行方式予以替代。那么,这些公交车应该遵循怎样的服务频次,何处停放,这些随之而来的问题都可以从时空实验室的数据研究得到优化。...对于国内大众来说,如果说地铁维修这个场景出现的频率不太高,那么接下来这个问题一定会让大家同步感受到一阵头痛和拥挤感——早晚高峰。

57400

谷歌地图利用机器学习实时预测公交交通延误情况

谷歌地图今天全球数百个主要城市推出了基于机器学习的实时公交延误预测,从一些公交机构获取有关公交车位置的实时数据。...本月早些时候印度启动的实时公交预测,可以为目前公交机构不提供实时公交位置数据的地区提供动力。...谷歌研究科学家Alex Fabrikant详细介绍了谷歌地图如何使用机器学习来预测公交车,比公交时刻表更准确。...然后,序列模型考虑了每个预期的停止或速度降低,例如公交车需要在公交车站减速和停车的时间和距离。 ? Fabrikant表示,“每个单元独立地预测其持续时间,最终输出是每单位预测的总和。...谷歌还推出了一项功能,使用机器学习预测公共汽车或火车全球200个城市的拥挤程度。

84630

悬赏17万:美国“知乎”的沙雕问题,需要AI来识别

智栗 发自 凹非寺 量子位 出品 | 公众号 QbitAI 知乎上面,时常会出现一些“睿智”的问题。 比如,一颗陨石如何挑选自己的归宿: ? 又比如,公交车的职业操守如何: ?...比赛内容之一,就是让AI识别出建立虚假前提上的问题,简称虚假问题 (Insincere Questions) 。 所以,怎样算是虚假前提?...△ 如何在一夜之间学会编程?(急,在线等) 比赛用的数据,就是Quora里面的问题。官方提供的数据集,分为训练集合测试集。训练集里有超过130万个问题,测试集里有5.6万个问题。...这场为期3个月的比赛,一周前已经启动。现在,已经有超过750支队伍参与其中,排行榜也一直变化。 窃以为,解锁不可描述的问题,应该是一项愉悦身心的活动。...参赛地址在这里: https://www.kaggle.com/c/quora-insincere-questions-classification 有问,必有答 最后的最后,母交车到底能不能吸引公交车

43040

悬赏17万:美国“知乎”的沙雕问题,需要AI来识别

智栗 发自 凹非寺 量子位 出品 | 公众号 QbitAI 知乎上面,时常会出现一些“睿智”的问题。 比如,一颗陨石如何挑选自己的归宿: ? 又比如,公交车的职业操守如何: ?...比赛内容之一,就是让AI识别出建立虚假前提上的问题,简称虚假问题 (Insincere Questions) 。 所以,怎样算是虚假前提?...△ 如何在一夜之间学会编程?(急,在线等) 比赛用的数据,就是Quora里面的问题。官方提供的数据集,分为训练集合测试集。训练集里有超过130万个问题,测试集里有5.6万个问题。...这场为期3个月的比赛,一周前已经启动。现在,已经有超过750支队伍参与其中,排行榜也一直变化。 窃以为,解锁不可描述的问题,应该是一项愉悦身心的活动。...参赛地址在这里: https://www.kaggle.com/c/quora-insincere-questions-classification 有问,必有答 最后的最后,母交车到底能不能吸引公交车

36520

预测接下来一个小时路况,大数据又有经典应用

浙江交通运输厅基于其拥有的高速历史数据、实时数据与路网状况,与阿里云大数据计算能力相结合,来预测未来1小时内的路况,预测准确率稳定在91%以上,成全球已公开的最好成绩,阿里云还在联合广州做公交车拥挤情况的预测...互联网出现之前,最经典的大数据预测是天气预报:基于卫星云图等实时数据和气象学原理,来预测未来的天气变化。...中国气象局公共气象服务中心已经2014年与阿里云达成战略,深度应用互联网大数据和云计算能力。...而之前的预测都是未来几天的事情;二是公共数据,之前的预测几乎都是网络大数据,这一次是基于政府公共部门掌握的大数据,这一探索具有很强的示范意义;三是交叉分析,交通并不是孤立的存在,天气状况、突发事件、重大比赛等外因都会对交通造成影响...未来的交通预测,可覆盖范围将更广泛,除了路况之外,还能与民航大数据结合预测航线,与用户LBS数据结合预测人流,与地铁数据结合预测地铁站人流和地铁线拥挤情况等等。

1.2K40

学界 | OpenAI竞争性自我对抗训练:简单环境下获得复杂的智能体

为了理解简单目标和竞争压力的组合是如何产生复杂行为的,我们来分析相扑摔跤运动任务。...在这里我们采用之前研究(https://arxiv.org/abs/1506.02438)定义的密集奖励训练仿真行走机器人,我们删除速度因素,添加距离相扑圈中心的负 L2 范数距离,并把它作为相扑智能体的密集探索奖励...智能体相扑数据集中训练,然后迁移到风中站稳的任务 这些智能体还展示了迁移学习的潜力,即智能体将从一个环境中学到的技能应用到以前未曾见过的情况。...在案例,我们先实现了智能体相扑任务的自我对抗训练,然后令其完成受风力干扰的站立任务。...智能体使用经典强化学习训练行走任务后,迁移到风中站稳的任务 过拟合 我们的智能体使用合作学习策略(co-learning policies)会出现过拟合情况。

1.2K50

QQ如何把你消息传递给好友的?(下篇)

那么文字和语音如何到达小芳手机的?通过这篇文章,张叔叔保证让你豁然开朗。 ? 先来回答一个问题,你如果从城市北边的学校到城市西边的动物园?...通常情况下我们有两种方式:从学校坐公交车到城市中心的公交枢纽,然后换成一辆公交车到达动物园;明确学校和动物地址之后,直接驾车从学校到动物园。...这就好比所有人坐公交车都要去公交枢纽转乘,公交枢纽的服务人员不得忙死了,周边的道路肯定也会非常拥挤,最终大家都不能按时到达目的地(消息延迟),很多人可能也因此中途下车了(消息丢失)。 ?...小芳收到消息之后取出消息编码,然后判断之前又木有收到过这条消息,如果之前出现过,那么肯定是重复消息,不再展示即可;如果没有出现过,那就是新消息,可以进行展示。如此,重复问题得以解决。 ?...是不是通过这两篇文章对于QQ消息是如何发送给好友有了更清晰的认识,还是那句话,相信坚持与专注的力量,跟着张叔叔继续学习吧! ?

79820

SODA-大型活动大规模人群的识别和疏散:从公交2.0到公交3.0

本次比赛中共开放了交通卡、交通事故、出租车轨迹、公交车运行、地铁运行、空气质量、气象监测、新浪微博等12个数据集近TB量级的数据,供广大参赛者深入挖掘数据隐藏的价值,为解决实际问题提供创意来源和数据支持...在这场回家的战争,政府、乘客、专用巴士公司三者之间联系脆弱、信息隔离、配合艰难: 政府:群众安全隐患严重,慢疏散一分就多一分风险; 乘客:无公交车,打车贵,回家难; 专用巴士公司:找客源难,制定路线难...具体应用,需要考虑的问题包括使用多少辆巴士、每辆巴士载客量多少、如何制定疏散策略等。根据实际需求和目标,可采取的疏散策略包括最小成本疏散、最小延误疏散和分级快速疏散等。...从这一案例我们看到了专用巴士缓解交通压力、解决出行问题中扮演的重要角色,我们真正希望做的,是从大规模普及到中小规模、从特殊场景推广到一般场景、从人群疏散延伸到绿色出行,让专用巴士公共交通中发挥更重要的作用...基于多源开放数据和创意运营模式,“公交3.0”提倡多乘公交车、少开私家车、绿色出行、节能减排,能有效缓解道路拥挤、减少尾气排放、节约能耗使用。

41320

SODA-大型活动大规模人群的识别和疏散:从公交2.0到公交3.0

本次比赛中共开放了交通卡、交通事故、出租车轨迹、公交车运行、地铁运行、空气质量、气象监测、新浪微博等12个数据集近TB量级的数据,供广大参赛者深入挖掘数据隐藏的价值,为解决实际问题提供创意来源和数据支持...具体应用,需要考虑的问题包括使用多少辆巴士、每辆巴士载客量多少、如何制定疏散策略等。根据实际需求和目标,可采取的疏散策略包括最小成本疏散、最小延误疏散和分级快速疏散等。...下图是我们“可视化展示平台”搭建的模拟疏散系统,数据使用之前提及的4月11日虹口足球场站地铁数据。...从这一案例我们看到了专用巴士缓解交通压力、解决出行问题中扮演的重要角色,我们真正希望做的,是从大规模普及到中小规模、从特殊场景推广到一般场景、从人群疏散延伸到绿色出行,让专用巴士公共交通中发挥更重要的作用...基于多源开放数据和创意运营模式,“公交3.0”提倡多乘公交车、少开私家车、绿色出行、节能减排,能有效缓解道路拥挤、减少尾气排放、节约能耗使用。

93460

微信文章太多,看不过来?这个「女生」来念给你听

让你无论是拥挤公交车上,还是收拾房间做家务,都能利用耳朵阅读,充分利用零碎化的时间充实自己。 关注「知晓程序」公众号,微信后台回复「0109」一张图带你玩转小程序。 打开这款小程序,界面很简单。...并且,在出现的这个朗读页面里,还贴心地列出了这篇文章的「字数」,以及全篇读完所需的「时间」,还有「文件大小」。让你能够轻松明了地决定和安排如何度过这些碎片时间。 ?...经过知晓程序(微信号 zxcx0101)的测试,目前这款小程序支持「女声男声」两种音色,「慢快」三种语速,能识别「中英文」两种语言。...但提供的男女声略显呆板僵硬,影响体验,期待在后续开发可以添加更多的语音库,实现多语言多音色的自主选择,让耳朵听得更舒服,创造更舒适的听觉体验。...微信后台回复「藏宝图」,获取最好玩的小程序全名单。 微信后台回复「666」,加入知晓开发联盟。 ?

39430

大型活动大规模人群的识别和疏散:从公交2.0到公交3.0

在这场回家的战争,政府、乘客、专用巴士公司三者之间联系脆弱、信息隔离、配合艰难: 政府:群众安全隐患严重,慢疏散一分就多一分风险; 乘客:无公交车,打车贵,回家难; 专用巴士公司:找客源难,制定路线难...具体应用,需要考虑的问题包括使用多少辆巴士、每辆巴士载客量多少、如何制定疏散策略等。根据实际需求和目标,可采取的疏散策略包括最小成本疏散、最小延误疏散和分级快速疏散等。...调配更多大容量巴士当然可以加快疏散进度,但过多巴士资源造成的浪费则会导致亏损,因此存在一个同时满足最大盈利和最快疏散的最优点,这一结论模拟系统得到了充分证实。...从这一案例我们看到了专用巴士缓解交通压力、解决出行问题中扮演的重要角色,我们真正希望做的,是从大规模普及到中小规模、从特殊场景推广到一般场景、从人群疏散延伸到绿色出行,让专用巴士公共交通中发挥更重要的作用...基于多源开放数据和创意运营模式,“公交3.0”提倡多乘公交车、少开私家车、绿色出行、节能减排,能有效缓解道路拥挤、减少尾气排放、节约能耗使用。

57830

当AI开始“踢脏球”,你还敢信任强化学习吗?

足球比赛和跑步比赛,对手有时甚至都站不起来。...OpenAI曾经设计了一个赛艇游戏,任务原本的目标是完成比赛。研究者设置了两种奖励,一是完成比赛,二是收集环境的得分。...这也直接导致了两个结果: 一是尽管理论上,只要为强化学习系统设计的足够优秀,现实环境实现就不成问题,但实际上许多任务的奖励是很难设计的,研究者往往不得不采用约束型策略优化(CPO)来防止系统过拟合,...可是这样一来,又限制了强化学习能力的泛化,导致那些实验室中表现很好的强化学习系统,只特定任务起作用,像是一些游戏、比赛。...究竟如何才能用好这柄利刃,既是胆魄,亦需智慧。

31601

公交车上的合伙人

作者:庄表伟 | 编辑:Corrie 01 — 贡献开源与挤公交 挤过公交车吗?知道变心板吗?也许有些年轻的朋友,不一定听说过这个名词。...简单说:当一辆拥挤公交车驶进站台的时候,大家都会拼命的想要挤上去。站在下面的人,会拼命喊:往里挤一挤,还有地方呢!...但是,一旦等到这个人,踏上了公交车的那块踏板,立马口风就变了:挤不下了,实在挤不下了,后面的人等下一部车吧。 这与贡献开源,有什么关系? 当你是一个 Contributor,尤其是一个新手的时候。...02 — 合伙人制度 合伙人在法学是一个比较普通的概念,通常是指以其资产进行合伙投资,参与合伙经营,依协议享受权利,承担义务,并对企业债务承担无限(或有限)责任的自然人或法人。...如何设计一种合理的制度,以公开的方式选拔组织的合伙人,是一个有趣的话题,值得进一步深入探讨。

48030

如何在踩踏事故幸存,如何避免踩踏事故发生?

实际上踩踏事故,遇难者大多并不是真的死于踩踏,他们的死因更多的是挤压性窒息——人的胸腔被挤压的没有空间扩张。最极端的踩踏事故,人在遇难时甚至可以保持站立的姿态。...如何在踩踏事故脱身 任何时候去人流密集的地方,都应当观察周围,记住出口的位置,提前大脑中规划撤离方案。...可预期的人流密集地点制定拥挤预案。比如新年夜的外滩,人流可能从哪里来,预计有多少人,如何评估现场人数,一旦现场评估人流超过容量,如何分流继续涌入的人群,如何疏散人群。...比如警力如何分配,控制人群使用什么措施。有时候警察的出现会安抚人群的情绪,而有时候正好相反,这非常微妙。 2003年2月17日,美国芝加哥E2俱乐部,夜店中发生斗殴,保安使用了胡椒喷剂意图制止混乱。...刺鼻的气味拥挤的人群引发恐慌,进而发生踩踏,21人死亡。 广场、车站、学校、医院和娱乐场所,这些公共设施的设计和施工要考虑到预防踩踏的因素。

63440

高质量DP压轴,非常精彩的比赛。LeetCode周赛第282场

返回 words 以 pref 作为 前缀 的字符串的数目。 字符串 s 的 前缀 就是 s 的任一前导连续字符串。...解法 模拟题,要判断是否包含给定的前缀,很简单,我们直接从匹配串取出对应长度的子串,然后比较一下子串和需要匹配的前缀是否相等即可。...一步操作,你可以给 s 或者 t 追加 任一字符 。 返回使 s 和 t 互为 字母异位词 所需的最少步骤数。 字母异位词 指字母相同但是顺序不同(或者相同)的字符串。...每辆公交车可以 连续 完成多趟旅途,也就是说,一辆公交车当前旅途完成后,可以 立马开始 下一趟旅途。每辆公交车 独立 运行,也就是说可以同时有多辆公交车在运行且互不影响。...我们都知道算法当中有一个NP问题的概念,指的是多项式时间复杂度内没有可行解,但是可以多项式时间复杂度内验证的问题。

30210

“游族杯”上海开放数据创新应用大赛8月18日正式开赛

中央网络安全和信息化领导小组办公室信息化发展局 承办单位:上海市经济和信息化委员会、上海市交通委员会主办,中国工业设计研究院(CIDI) 独家冠名:上海游族公益基金会 开放数据集:交通卡、交通事故、道路交通指数、出租车轨迹、公交车运行...上海城市交通的运行情况,政府信息系统中汇集成为大数据资源,蕴含着丰富的价值。 ? 如何释放政府数据的价值?开放数据是一条重要的途径。...然而,数据只是一堆冰冷的数字,如何将数据转换成温度,来温暖我们的城市?...、交通事故、道路交通指数、出租车轨迹、公交车运行、地铁运行、空气质量、气象检测、新浪微博等上千GB的数据集,其中许多数据集国内属于首次开放,其中蕴含的社会价值、科研价值和商业价值正静待广大参赛者深入挖掘...比赛涌现的优秀项目也将得到各领域专家与机构的项目孵化和产品落地支持。 ? 本次比赛设SODA大奖1名、优秀奖3名、单项奖4名及7个入围奖,奖金分别为20万元、10万元、5万元和5千元。

779100

CSP-J第二轮试题-2019年-1、2题

第二条记录,第 46 分钟乘坐公交车,可以使用第一条记录乘坐地铁获得的优惠票,因此没有花费。 第三条记录,第 50 分钟花费 12 元乘坐地铁。...第四条记录,第 96 分钟乘坐公交车,由于距离第三条记录乘坐地铁已超过 45 分钟,所以优惠票已失效,花费 3 元乘坐公交车。 第五条记录,第 110 分钟花费 5 元乘坐地铁。...第六条记录,第 135 分钟乘坐公交车,由于此时手中只有第五条记录乘坐地铁获得的优惠票有效,而本次公交车的票价为 6 元,高于第五条记录地铁的票价 5 元,所以不能使用优惠票,花费 6 元乘坐公交车...第四条记录,第 31 分钟乘坐公交车,此时只有第二条记录乘坐的地铁票价高于本次公交车票价,所以使用第二条记录乘坐地铁获得的优惠票。...第六条记录,第 68 分钟乘坐公交车,使用第三条记录乘坐地铁获得的优惠票。 总共花费 32 元。

31720
领券