首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MIT团队训练AI玩任斗 已跻身顶级玩家之列

,就是任天堂全明星大乱斗 麻省理工一研究生研究了一个AI,玩任斗 现在已经跻身世界顶级玩家之列了 AI下象棋下围棋已经不是什么新鲜事儿了 德州现在也能玩得溜了 不玩棋牌类开始玩网游了 各位,危机感有没有...和AlphaGo一样,Philip也是一局一局的对抗中逐渐获得数据。 ?...事实上,团队给Philip开了一些外挂: Philip的反应时间为33ms,而人类的反应时200ms以上。...人类玩家靠眼睛看屏幕做出反应,Philip直接读取游戏内存来确定角色的位置信息,连带着速度、状态也一并都读取了。 虽然开了外挂,人类玩家还是有战胜Philip的方法。...玩归玩 PhilipAI研究的意义还是有的 1. 通过迁移学习可以使Philip不同角色中切换。

78450

弯道极限超车、击败人类顶级玩家,索尼AI赛车手登上Nature封面

现在,这些智能体可以《GT 赛车》(Gran Turismo)刷新最高分。 《GT 赛车》由 SCEJ 旗下的著名制作人山内一典领衔研发的一款赛车游戏。...GT Sophy 使用一种称为强化学习的方法进行训练:本质上是一种试错形式,其中 AI 智能体被扔到一个没有指令的环境中,并因达到某些目标而获得奖励。...测试 AI 智能体时,智能体具有许多天生的优势,例如它们可以完美的进行回放、反应时间也非常快。...反应时间方面,GT Sophy 能够 23-30 毫秒内对比赛环境中的事件做出反应,这比职业运动员的 200-250 毫秒的最高反应时间要快得多。...Polyphony Digital 提供了必要 API 的访问,从而在这个终极模拟环境中训练 GT Sophy。

60730
您找到你想要的搜索结果了吗?
是的
没有找到

NeuroImage:暴力的隐式创伤—异常运动振荡脑活动与创伤后应激症状有关

这两个指标(LRP和MRAA)都反映了刺激后反应的皮质运动准备,并且是通过将对侧电皮层活动从同侧电皮层活动减去给定的手部运动而获得的,它们提供了关于皮质运动准备的不同和互补的信息。...LRP是一种事件相关电位波形,因此反映的电压波动与事件/刺激既是时间锁定的,也是相位锁定的;MRAA提供了关于振荡活动的额外信息,这些振荡活动也是由刺激/事件引起的,但不是相位锁定的。...因此,通过从EEG数据中提取这两个指标,可以实现皮质运动处理的更广泛和更全面的观察。...2.5 事件相关电位分析 中性和威胁条件下,与用左右手食指做出正确反应相关的无伪影时期被基线调整,并在试验中取平均值,然后受试者之间取平均值以获得总平均值。...为了创建情绪调节指数,研究人员减去每个受试者威胁试验中获得的较低α频段(8-10Hz)的α MRAA活性的平均值减去中性试验中获得的平均值。

50700

启动云计算事件响应策略的5个步骤

企业还需要对其员工进行培训,提供充分的信息和支持,以便在事件发生时进行处理。 云原生组织必须确保其员工了解如何选择其提供商的界面,以收集信息发现的内容做出反应。...Runbook是企业员工在生产环境中可预测事件做出反应时可以执行的一系列常规操作和过程。 Runbook不仅限于安全事件,因为它们还可以引导员工完成诸如如何扩展数据库或重新启动卡住的进程等任务。...尽管日志聚合和分析可能非常昂贵,但这些信息以后步骤中进行的任何识别、分类和修复工作的基础。 步骤2:确定 团队对事件做出响应之前,他们需要确定事件发生的时间。...通过人工处理或自动过程识别事件之后,许多组织可能选择通知其云计算提供商并其进行交叉验证。这个步骤可以确保企业实际事件做出反应,而在时间紧迫的情况下,云计算提供商的支持可以帮助快速结束循环。...现可免费入驻,入驻后,可获得企业网D1net 相应公众号推荐的机会。欢迎入驻。 扫描下方“二维码”即可注册,注册后读者可以点评,厂商可以免费入驻。

79530

智能假手与机器人融合可以灵活抓取物品

洛桑联邦理工学院(EPFL)的科学家们开发了新的方法来改善机器手的控制,该方法将单个手指控制和自动化结合起来,以提高抓取和操作能力。...另一种来自机器人技术,它可以让机械手帮助抓住物体,并保持与物体的接触,以获得强大的抓取能力。 上图为实验设置和受试者。...“当手中的物体开始滑动时,我们往往只有很短的反应时间,”研究人员解释说,“机械手能够400毫秒内做出反应。...整个手指上都装有压力传感器,它可以大脑实际感知到物体滑动之前做出反应并稳定该物体。” 共享控制是如何实现的? 该算法首先学习如何解码用户意图,并将其转换为假手的手指运动。...这种自动抓取是先前研究的机器人手臂的一种改进,该机器人手臂旨在推断物体的形状并仅基于触觉信息来抓握它们,而无需视觉信号的帮助。

41920

V2X OBU预警信息UI设计

1、V2X简介 V2X是一种技术,它将信息从车辆传递到可能影响车辆的任何实体,例如交通信号灯等。它允许车辆相互之间或其他实体进行"通信",以提高交通安全性。...image.png 5、设计指南 上面的旅行地图帮助我制定了设计指南: 定义"紧急级别": 我根据驾驶员特定路况下可以做出反应的时间定义了紧急级别。反应时间越短,应急水平越高。...获得3个主要类别的路况场景和行程地图后,我可以更清楚地了解这3个场景的"紧急级别":对于案例1,我们期望车辆以更高的速度移动,因此驾驶员做出反应的时间会更短,紧急级别会更高。...image.png 案例1:前方路况警告 警报消息的设计理念来自竞争分析的要点,我使警告消息尽可能简单直观,并设计警告图标以映射用户现实世界中的观点。...如果资源可用,则可以进行用户研究,以观察驾驶员如何与信息娱乐系统交互或不同路况做出反应,以构建可以更适合真实场景的旅程地图。

1K20

AI超人赛车手狂虐人类登Nature封面!1000台PS4训练,「苏菲」极限超车独霸赛道

高能力的AI各种游戏中打败人类,这些消息近年来频频出现。 不管是早年的国际象棋、问答比赛,还是近年的围棋、星际争霸、刀塔2。 AI选手面前,人类的专业选手简直被打到要哭。 ‍...索尼人工智能研究人员和工程师开发了创新的强化学习技术,包括一种新的训练算法QR-SAC,给AI的各种高速驾驶决策做出规则和物理限制内的合理性后果分析。...并用智能体可理解的赛车规则编码,以及获得一种促进细微赛车技能的训练方案。...不过,依然可以对另外两个要素进行限制:作用频率和反应时间。 GT Sophy的输入信号被限制10赫兹,理论上人类的最大输入信号为60赫兹,而这有时会让人类车手高速行驶时表现出「更平稳的动作」。...反应时间方面,GT Sophy能够23-30毫秒内对比赛环境中的事件做出反应,这比专业运动员估计的最高反应时间200-250毫秒要快得多。

36810

学界 | DeepMind 多智能体强化学习方面又有了新进展,最新成果登上 Science 杂志!

夺旗赛:根据像素做出动作决策 在这项研究中,我们聚焦于「Quake III Arena」游戏(保证所有的游戏机制维持不变的情况下,我们美工进行了微调)。...为了获得战术上的优势,玩家可以攻击对方战队的玩家,将其送回复活点。 5 分钟的游戏时间结束后,获得旗帜数量最多的队伍将获得胜利。...我们的新 FTW 智能体,获得了比人类玩家和基线方法(Self-play + RS 和 Self-play)高得多的 Elo 等级分(对应获胜概率)。...这些训练后的智能体甚至展示出了一些直接特定情况编码的人工神经元。 智能体从未被告知任何有关游戏规则的信息,它们需要学习 CTF 的基本游戏概念并发展出自己有效的直觉。...首先,我们注意到智能体的反应时间非常短,并且攻击十分精准,这或许就解释了他们为什么会有如此出色的表现(「攻击」是一种战术行为,能够将对手送回到他们的出发点)。

57540

业界 | DeepMind游戏AI又有新突破,与智能体、人类合作都不在话下

为了获取战术优势,它们可以射击对方战队的成员,让它们返回它们的重生点(spawn point)。经过五分钟游戏后,夺取最多旗子的战队获胜。 ?...FTW 智能体变得比强基线方法更强大,并且超过了人类玩家的胜率。事实上,一项参与者的调查中,它们被认为比人类玩家更具合作性。 ? DeepMind 智能体训练中的表现。...实际上,我们可以发现,某些特定的神经元可直接最重要的游戏状态编码,例如当智能体的旗被夺走时某个神经元就被激活,或当智能体的队友持有旗时某个神经元就被激活。...首先,需要注意的是智能体有非常快的反应时间和非常准确的命中率,这能解释它们的优越表现。然而,通过人工减少命中率和反应时间,我们可以发现这仅是它们成功的其中一个因素。 ?...训练之后人工减少智能体的命中率和反应时间的效果。即使和人类相近的准确率和反应时间上,DeepMind 智能体的表现也优于人类。

41810

DeepMind开源Psychlab平台——搭建AI和认知心理学的桥梁(附论文和代码下载)

我们相信可以使用类似的实验方法来更好地理解人工智能体(artificial agents)的行为。...这一般包括一个参与者坐在电脑显示器前,用鼠标屏幕上的任务做出响应。类似地,我们的环境允许虚拟主体虚拟计算机监视器上执行任务,利用它的注视方向进行响应。...这使得它更容易与认知心理学的文献联系起来,以便从中获得思路。...这是一种理解人类选择性注意力的方法,已经研究了复杂的刺激阵列中定位目标的能力,如超市货架上的一个商品。 ?...当我们一个最先进的人工智能体进行同样的测试时,我们发现它虽然可以执行任务,但并没有显示人类模式(human pattern)的反应时间结果。 在这三种情况下,他们用了相同的时间来应对。

724110

学界 | DeepMind 多智能体强化学习方面又有了新进展,最新成果登上 Science 杂志!

夺旗赛:根据像素做出动作决策 视频内容 在这项研究中,我们聚焦于「Quake III Arena」游戏(保证所有的游戏机制维持不变的情况下,我们美工进行了微调)。...为了获得战术上的优势,玩家可以攻击对方战队的玩家,将其送回复活点。 5 分钟的游戏时间结束后,获得旗帜数量最多的队伍将获得胜利。...我们的新 FTW 智能体,获得了比人类玩家和基线方法(Self-play + RS 和 Self-play)高得多的 Elo 等级分(对应获胜概率)。...首先,我们注意到智能体的反应时间非常短,并且攻击十分精准,这或许就解释了他们为什么会有如此出色的表现(「攻击」是一种战术行为,能够将对手送回到他们的出发点)。...「Ironwood」地图上的单旗夺旗模式 总的来说,这项工作强调了多智能体训练推动人工智能发展上显示的潜力:利用多智能体训练所提供的自然学习信息,同时也能促使我们开发出甚至可以与人类合作的鲁棒的智能体

50630

骗人还是文字强!MIT最新研究:DeepFake换脸还不如编辑动动笔

然而,视听信息如何影响人们消息的易感性,针对此项目的实证研究很少。最近,MIT媒体实验室的科学家向5727人展示了16篇真实的政治演讲片段和16篇被DeepFake加工篡改过的演讲片段。...公众一直怀疑东欧冲突中的一方会制造另一方总统宣布投降的DeepFake视频。这些担忧可以理解,不过当下散播的各种假消息还几乎没用到DeepFake技术。...按《今日美国》事实核查组的成员称,动荡时局中,造假者搜索、剪裁旧的影音材料,安上时下新消息的名目再贴出,这种造假行为的难度比DeepFake低多了。...受试者反应时间的中位数是24秒,比视频的平均长度长3秒。无声的、有字幕的视频的反应时间中位数是31秒,比其他所有模式条件的反应时间略长。在所有7种模式条件下,受试者伪造内容的反应时间比真实内容要短。...受试者32个演讲中的每个演讲的文字记录、无声视频和有声视频判断的准确性总的来说,信息载体的确影响辨别准确性:受试者判断有音频的视频时,比无声视频更准确;判断无声视频时,比文本记录更准确。

66040

骗人还是文字强!MIT最新研究:DeepFake换脸还不如编辑动动笔

然而,视听信息如何影响人们消息的易感性,针对此项目的实证研究很少。最近,MIT媒体实验室的科学家向5727人展示了16篇真实的政治演讲片段和16篇被DeepFake加工篡改过的演讲片段。...公众一直怀疑东欧冲突中的一方会制造另一方总统宣布投降的DeepFake视频。这些担忧可以理解,不过当下散播的各种假消息还几乎没用到DeepFake技术。...按《今日美国》事实核查组的成员称,动荡时局中,造假者搜索、剪裁旧的影音材料,安上时下新消息的名目再贴出,这种造假行为的难度比DeepFake低多了。...受试者反应时间的中位数是24秒,比视频的平均长度长3秒。无声的、有字幕的视频的反应时间中位数是31秒,比其他所有模式条件的反应时间略长。在所有7种模式条件下,受试者伪造内容的反应时间比真实内容要短。...受试者32个演讲中的每个演讲的文字记录、无声视频和有声视频判断的准确性总的来说,信息载体的确影响辨别准确性:受试者判断有音频的视频时,比无声视频更准确;判断无声视频时,比文本记录更准确。

52650

7 Papers & Radios | 索尼AI赛车手登上Nature封面;牛津大学博士论文阐述神经微分方程

GT Sophy 使用一种称为强化学习的方法进行训练:本质上是一种试错形式,其中 AI 智能体被扔到一个没有指令的环境中,并因达到某些目标而获得奖励。...反应时间方面,GT Sophy 能够 23-30 毫秒内对比赛环境中的事件做出反应,这比职业运动员的 200-250 毫秒的最高反应时间要快得多。...该研究注意到,将两种训练目标结合是否会让性能更强目前尚不清楚,但这两个目标都要求模型有关图像的质量不同且相互矛盾的信息进行编码,因而会导致干扰。...具体而言,这篇论文主要做出了以下贡献: 提出一个基于神经消息传递(message passing, MP)的端到端全神经 PDE 求解器,其灵活性能够满足典型 PDE 问题的所有结构需求。...一种直接的训练方法是单步训练。如果 p_0(u^0 ) 训练集中是初始条件的分布,则 是迭代为 k 时的真值分布。研究者最小化如下公式(6) 下图 2 为不同的训练策略。

35940

java观察者模式

像activeMQ等消息队列中,我们经常会使用发布订阅模式,但是你有没有想过,客户端时如何及时得到订阅的主题的信息?其实就里就用到了观察者模式。...可以确保观察者不使用轮询监控的情况下,及时收到相关的消息和事件。...(3) 观察者模式软件开发中应用非常广泛,如某电子商务网站可以执行发送操作后给用户多个发送商品打折信息,某团队战斗游戏中某队友牺牲将给所有成员提示等等,凡是涉及到一一或者一多的对象交互场景都可以使用观察者模式...java.util.Observer接口是观察者接口,它的update方法会在java.util.Observable中的notifyObservers方法中被回调,以获得最新的状态变化。...,一旦执行某个操作,则通知观察者,队列模式中,其实就是当消息被添加到队列的时候,添加进队方法里面调用了通知方法

50720

微微一笑,轮椅便知道

一款新型轮椅可能会给具有严重移动障碍的人们带来人工智能展露笑颜的另一个理由:咧嘴微笑实际上可能会帮助他们控制自己的轮椅。...护理人员或家庭成员可以通过应用程序来指定哪些面部表情将与轮椅的哪些移动或停止方向关联:向左、向右、向前、向后。...人们可能会因为听到一个笑话或在对看到心爱之人做出反应时微笑,而你不会想要轮椅仅因为这个原因就开始移动。 但是,用户也可以通过面部表情组合来禁用或启用Wheelie,从而避免任何此类问题。...他说道,该套件可以阳光下和昏暗照明环境下工作,并与95%的既有电动轮椅兼容。皮涅罗补充道,该套件可以7分钟内安装完毕,因此产品名称中有“7”这个数字。...他们将免费获得该套件,但需要提供用户反馈来作为交换,该套件订阅模式下的月费用通常为约300美元。皮涅罗预计下一个原型将在2019年3月问世。

40930

社群经济与粉丝经济:误解和澄清

这种高自我认同感社群成员的社会交流中会被作为一种资本进行表述,从而使有意加入该社群的非社群成员获得账号有了更高的渴望,这种渴望极易现实中产生经济价值,也就出现了倒卖P1邀请码的情况。...其实,粉丝经济是一种单项的价值流通,它通过塑造一个品牌(这个品牌可以是人、物、观念等),来笼络该品牌有较高认知度与喜好的受众成为其粉丝,这样的关系构成使得其内部的信息传递具有单向性的特点,即品牌传达某些信息...,粉丝接受信息并向品牌做出反馈。...但如果我们深入来看,二者不难区分,可以通过以下三种方法进行分辨:    (1)成员之间的互动程度    社群依托社群成员间的联系形成,社交媒体在网络时代起到的正是交流平台的作用,平台给予社群成员自由交流与沟通的方式和渠道...,消息评论中,粉丝往往也不会做出交流举动,而是以单纯表达崇拜为主。

1.1K100

Akka 指南 之「什么是 Actor?」

这种分为内部对象和外部对象的方法可以实现所有所需操作的透明性:不需要更新其他地方引用的情况下重新启动 Actor,将实际的 Actor 对象放在远程主机上,完全不同的应用程序中向 Actor 发送消息...幕后,Akka 将在一组真正的线程上运行一组 Actor,在这些线程中,通常许多 Actor 共享一个线程,随后一个 Actor 的调用可能最终不同的线程上进行处理。...行为(Behavior)指的是一个函数,它定义了该时间点对消息做出反应时要采取的操作,例如,如果客户端被授权,就转发一个请求,否则就拒绝它。...这种行为可能会随着时间的推移而改变,例如,由于不同的客户端随着时间的推移而获得授权,或者因为 Actor 可能会进入“停止服务”模式,然后返回。...子 Actor 每个 Actor 都可能是一个监督者:如果它为分配子任务创建子 Actor,它将自动它们进行监督。子列表 Actor 的上下文中维护,并且 Actor 可以访问它。

88520

译文 | 小企业如何利用大数据?

然而,跟过去的大数据一样,它仍然可以帮助企业做出更好的决策,改善运营。 学习客户模式 小企业可以利用大数据的一个领域是了解客户的模式。...或者看看哪些社交媒体帖子浏览量最大,使用这些数据可以帮助你了解你的客户什么比较感兴趣。...例如,Point Defiance动物园和水族馆使用大数据来了解和认识他们的客户习惯,他们的许多客户夜间或清晨在线购票。有了这些信息,这两年他们的收入增长了771%。...公司负责人坦承,之前,他采用了一个大数据系统,以处理大量的信息,他但不知道它们究竟有多少邮件需要处理,也不知道用于应回这些电子邮件的反应时间是多长。...举例来说,如果他们看到许多电子邮件称赞某水果当天送到,他们知道就有一个受欢迎的项目,可以把这个消息分享给其他人。 大数据不在只是大企业用的了。

69160

路面污渍也能用来攻击!基于深度学习的自动车道居中辅助系统的安全研究

该团队一项工作的成果报告8月13日正式发表USENIX Security 2021(计算机安全四大顶会之一),且该工作的早期版本获得了NDSS 2020(计算机安全四大顶会之一)Best Technical...尽管方便,但ALC系统需要具有较高的安全性:当ALC系统做出错误的转向决策时,人类驾驶员可能没有足够的反应时间来防止即将发生的安全隐患,例如开出路面或与相邻车道上的车辆相撞。...图5:仿真验证结果(攻击演示视频) 为了了解现有的车辆主动安全技术DRP攻击的影响,如图6所示,团队成员将攻击数据(即受攻击时的到路线检测结果)直接注入到部署了OpenPilot的真车(2019年款丰田凯美瑞...另外FCW的平均触发时间是碰撞发生前0.46秒,相比于人类驾驶员的2.5秒平均反应时间,绝大部分驾驶员就算想要接管车辆也太晚了。...该团队认为,这种明确在手册中提及的方法至少可以有助于用户提前认识到风险,从而更可能主动观察去避免遭到DRP攻击。

54010
领券