选自DeepMind 作者:Adam Santoro等 机器之心编译 参与:机器之心编辑部 想象一下在阿加莎·克里斯蒂(《东方快车谋杀案》作者)的侦探小说里收集所有证据找出犯人的读者,在足球滚到河边时上前停球的小孩,甚至一个购物者在购买水果时比较猕猴桃和芒果的优点。 人类将这个世界理解为事物之间的关系。我们了解世界运行的方式,因为我们能对不同事物之间的联系做出逻辑推理——物理对象、语句,甚至抽象的想法。这种能力被称为关系推理,它是人类智能的核心。 我们以每天所有感官接收到的非结构化信息为基础构建这种关系。
【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文,称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN,能够预测视觉场景中各个物体在未来几百步所处位置,另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN,可以“即插即用”,提升其他深度神经网络结构(如 CNN)关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明,RN 的总体推理正确率已经达到 95.5%,超越人类水平。 研究一:视觉互动网络 VIN,从原始视觉观察中学习真
http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/3013.pdf
DYNAMIC PLANNING IN HIERARCHICAL ACTIVE INFERENCE
https://www.groundai.com/project/unsupervised-learning-of-latent-physical-properties-using-perception-prediction-networks/
感知与行动之间存在着一种微妙的平衡,在感知中,预测误差会爬上层级,使信念更接近观察结果,在行动中,预测误差被抑制在较低水平,从而使观察结果更接近其预测。
太阳是太阳系的中心,这是天文学家历经了几个世纪才弄清楚的事情。但是现在,自学物理学原理的神经网络已经能够根据太阳和火星的运动以及它们在地球出现时的位置得出同样的结论。这一壮举是这项技术的第一个测试,研究人员希望他们能够通过大数据集中模式来发现新的物理定律,并重新制定量子力学。
AI科技评论按:本文介绍了 NIPS 2017 论文: Deep Learning for Precipitation Nowcasting: A Benchmark and A New Model 中提到的核心算法模型。在近期举办的GAIR大讲堂线上直播课中,该论文的作者之一施行健给我们详细讲解了论文中的核心思想以及模型的演进过程,AI科技评论为大家整理了此次分享的主要内容。 施行健,香港科技大学四年级博士,师从杨瓞仁教授。现于Amazon AWS Deep Learning组实习,岗位为应用科学家。本科
“科学的道路漫长而艰辛,要能持之以恒的坚持,需要做到兴趣驱动而非职业(收入)驱动,问题驱动而非学科驱动, 科学趣味驱动而非发表论文(SCI)驱动。” 7月23日,北京大学物理学院教授欧阳颀院士在第18期理解未来讲座上,做了以“科学、科学家和科学前沿”为主题的演讲,从“科学是什么”“科学家是做什么的?”“成为科学家的五大要素”三个方面为现场听众带来了一场科学盛宴。 以自身为例,欧阳院士介绍了成为科学家的五大要素:好奇心、献身精神、广泛的兴趣、直觉、社会责任感。 大数据文摘深入现场,带来第一手报道,本周末与您分
该文主要目的是让大家体会循环神经网络在与前馈神经网络的不同之处。 大家貌似都叫Recurrent Neural Networks为循环神经网络。 我之前是查维基百科的缘故,所以一直叫它递归网络。 下面我所提到的递归网络全部都是指Recurrent Neural Networks。 递归神经网络的讨论分为三部分 介绍:描述递归网络和前馈网络的差别和优劣 实现:梯度消失和梯度爆炸问题,及解决问题的LSTM和GRU 代码:用tensorflow实际演示一个任务的训练和使用 时序预测问题 YJango的前馈神经
来源:机器之心本文约2100字,建议阅读5分钟如果牛顿没被苹果砸中,GNN 和符号回归也能发现万有引力定律? 机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构,以及蛋白质功能预测。 机器学习强大的学习能力,我们不禁会问,机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律? 牛顿的万有引力定律指出,两个质点彼此之间相互吸引的作用力,是与它们的质
https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf
Dynamic inference by model reduction 2023.09.10.557043v1.full
机器之心报道 编辑:小舟、陈萍 如果牛顿没被苹果砸中,GNN 和符号回归也能发现万有引力定律? 机器学习 (ML) 推动了科学的巨大进步,从粒子物理学到结构生物学再到宇宙学,机器学习能够在大型数据集中学习特征,对不同的对象进行分类,并执行参数推断,以及更具开创性的应用,例如自回归语言模型、预测蛋白质结构,以及蛋白质功能预测。 机器学习强大的学习能力,我们不禁会问,机器学习能否仅仅通过观察我们的太阳系来重新发现万有引力定律? 牛顿的万有引力定律指出,两个质点彼此之间相互吸引的作用力,是与它们的质量乘积成正比,
大家好,我是韩敬宁,来自WebM Codec团队。今天非常高兴有机会能向大家介绍一下我们近期的关于VP9编码器优化的工作。VP9是在2013年release,从2013年底开始逐渐被包括YouTube在内的多家video service provider采纳成为编码内核。从2013年到2016年前后,我们的团队一直在做的就是不断优化VP9编码器。优化的目标主要是:首先,提高其核心压缩性能也就是在PSNR和SSIM这些客观Metric条件下的编码。还有一个方向是在同样的压缩性能条件下,我们会降低编码器的复杂度,让编码器跑得更快。
实例分割是计算机视觉中的基础问题之一。虽然静态图像中的实例分割已经有很多的研究,对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少。而真实世界中的摄像头所接收的,无论自动驾驶背景下车辆实时感知的周围场景,还是网络媒体中的长短视频,大多为视频流的信息而非纯图像信息,因而研究对视频建模的模型有着十分重要的意义。
生成模型,特别是条件扩散模型,使我们能够模拟高度丰富和复杂的分布,甚至是以文本为条件的真实图像分布。这种能力使许多以前不可能实现的应用成为可能,例如以文本为条件生成任意、多样且逼真的图像内容。在这些图像模型取得成功之后,最近的研究表明,其他领域的建模,如视频和三维几何领域,也同样适用于下游应用。
[导读]本文整理自微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上的分享内容。郑宇主持研发的Urban Air首次利用大数据来监测和预报细粒度空气质量,该服务覆盖了中国的300多个城市,并被中国环境保护部采用。2016年,他主持了城市大数据平台的设计和实施,并成功在中国大数据示范基地贵阳市部署。2013年他被《MIT科技评论评》评为全球杰出青年创新者,并作为现代创新者代表登上了《时代》周刊,2016年被评为美国计算机学会杰出科学家(ACM Distinguished Scientist
Nvidia是比较早做端到端控制车辆工作的公司,其方法训练CNN模型完成从单个前向摄像头的图像像素到车辆控制的映射。 其系统自动学习一些处理步骤的内部表示,比如只用转向角作为训练信号去检测道路特征。
行人遵循不同的轨迹避开障碍物并接纳其他行人。在这样的场景中任何自动驾驶汽车都应该能够预见行人的未来位置,并相应地调整行进路线避免碰撞。轨迹预测的问题可以看作是序列生成任务,感兴趣的是基于过去的位置来预测未来轨迹。这里提出了一种LSTM模型,即题目所说的,来学习人类的一般运动并预测其未来的轨迹。这是当时手工函数(例如social force模型)的传统方法不同的。
近年来人工智能技术突飞猛进,越来越多的机器人正在走进我们的世界。与人类一样,机器人在执行日常任务时往往需要具备一定的空间物理推理能力。具备这种能力不仅使机器人可以完成指定任务,更能让他们避免在执行任务时作出对人类有潜在危害的行为。
大家好,今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章,文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pratyush Tiwary。通过将自然语言处理工具应用于蛋白质分子的运动,马里兰大学的科学家创造了一种抽象语言,用于描述蛋白质分子可以采取的多种形状,以及如何以及何时从一种形状转变为另一种形状。
以对象中心的表示使自主驾驶算法能够推理大量独立智能体和场景特征之间的交互。传统上,这些表示是通过监督学习获得的,但会使感知与下游驾驶任务分离,可能会降低模型的泛化能力。在这项工作中,我们设计了一个以对象为中心的自监督视觉模型,仅使用RGB视频和车辆姿态作为输入来实现进行对象分割。我们在Waymo公开感知数据集上证明了我们的方法取得了令人满意的结果。我们发现我们的模型能够学习一种随时间推移融合多个相机姿势的表示,并在数据集中成功跟踪大量车辆和行人。我们介绍了该方法的起源和具体实现方法,并指明了未来的发展方向,为了帮助大家更好地复现代码,我们将详细地参数列入附表。
本文是 AAAI 2023 Oral 入选论文 Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild 的解读。本论文由北京大学王鹤研究团队与北京通用人工智能研究院、弗吉尼亚理工大学、斯坦福大学、清华大学、哥伦比亚大学合作,针对追踪并重建一段输入点云序列中的手和物体这一任务进行了研究。
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
机器之心原创 作者:Shixin Gu 参与:Hao、Panda 交叉路口是自动驾驶系统所面临的难点之一。今年五月,来自宾夕法尼亚大学、本田研究院和乔治亚理工学院的研究者提出了一种使用深度强化学习帮助自动驾驶汽车通过交叉路口的方法。机器之心技术分析师 Shixin Gu 对这项研究进行了解读,论文原文可访问:https://arxiv.org/abs/1705.01196 对无人汽车的研究已经不再仅仅局限于识别交通灯或交通标志的简单过程,而已经扩展到了多个生活场景中。用于衡量自动汽车的一个关键标准是看自动汽
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周论文包括 DeepMind 用 AI 复原古希腊铭文,登 Nature 封面;微软联合 OpenAI 提出超参数调优新范式,单个 GPU 上就可以调优 GPT-3 超参数。 目录: Restoring and attributing ancient texts using deep neural networks Tensor Programs V: Tuning Large Neural Networks v
目标跟踪是机器视觉中一类被广为研究的重要问题,分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨迹。
本文是一篇多目标跟踪方向的调研报告,从相关方向、核心步骤、评价指标和最新进展等维度出发,对MOT进行了全面的介绍,不仅适合作为入门科普,而且能够帮助大家加深理解。
我们提出了一种新颖的计算模型,将动作感知描述为一种主动推理过程,结合了运动预测(重用我们自己的运动系统来预测感知运动)和假设检验(使用眼球运动来消除假设之间的歧义)。该系统使用如何执行(手臂和手)动作的生成模型来生成特定假设的视觉预测,并将扫视引导到视觉场景中信息最丰富的位置,以测试这些预测和潜在的假设。我们使用人类行为观察研究中的眼动数据来测试该模型。在人类研究和我们的模型中,每当上下文提供准确的动作预测时,眼跳都是主动的;但不确定性会通过跟踪观察到的运动而引发更具反应性的凝视策略。我们的模型提供了一种关于行动观察的新颖视角,突出了其基于预测动态和假设检验的主动性质。
近年来,强化学习(Reinforcement learning)在人工智能领域中表现出了显著的性能,例如基于原始像素的 Atari 游戏,连续复杂控制策略的学习,以及在围棋游戏 Go 中超越人类的表现等。
近日,美团无人车配送中心团队获得NeurIPS 2020 INTERPRET轨迹预测挑战赛Generalizability赛道冠军、Regular赛道亚军。本文主要是算法层面的介绍,希望能给从事相关工作的同学有所帮助或者启发。
AI 科技评论按:许多自然问题都有一定的不确定性,比如一个杯子从桌上掉地,它可能躺在桌角、立在凳子下面,甚至直接摔碎。这种具有多种可能结果的未来预测一直是一个难题。深度学习三驾马车之一的 Yann L
题目:Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。
但是,多数人认为只有那些懂技术的专家才能用好它。其实,现在机器学习已经集成到了各个领域,并且对用户非常友好。一些非技术的小白完全能够使用现成的软件解决自己领域的专业问题。
(第二部分:深度学习) 第10章 使用Keras搭建人工神经网络 第11章 训练深度神经网络 第12章 使用TensorFlow自定义模型并训练 第13章 使用TensorFlow加载和预处理数据 第14章 使用卷积神经网络实现深度计算机视觉 第15章 使用RNN和CNN处理序列 第16章 使用RNN和注意力机制进行自然语言处理 第17章 使用自编码器和GAN做表征学习和生成式学习 第18章 强化学习 [第19章 规模化训练和部署TensorFlow模型]
大脑选择和控制行为的方式仍然存在广泛争议。基于最优控制的主流方法侧重于优化成本函数的刺激响应映射。观念运动理论和控制论提出了不同的观点:它们认为,通过激活动作效果并不断将内部预测与感觉相匹配来选择和控制动作。主动推理在推理机制和基于预测误差的控制方面提供了这些想法的现代表述,可以与生物体的神经机制联系起来。本文提供了连续时间主动推理模型的技术说明,并简要概述了解决四种控制问题的主动推理模型;即目标导向的到达运动的控制、主动感知、运动过程中多感官冲突的解决以及决策和运动控制的集成。至关重要的是,在主动推理中,电机控制的所有这些不同方面都来自相同的优化过程,即自由能量的最小化,并且不需要设计单独的成本函数。因此,主动推理为运动控制的各个方面提供了统一的视角,可以为生物控制机制的研究以及人工和机器人系统的设计提供信息。
论文:A Survey on Trajectory-Prediction Methods for Autonomous Driving
当机器配备有两个特征时,学习会更加有效:一个巨大的假设空间,一组有无数设置可供选择的心智模型;和复杂的算法,根据从外部世界接收的数据调整这些设置。在关于先天和后天的辩论中,我们都低估了这两者!
Generative models for sequential dynamics in active inference
机器之心专栏 机器之心编辑部 通过观看大量网络上的驾驶视频,模型能否学会驾驶策略? 2023 年 1 月 21 日,人工智能顶级会议 ICLR 2023(International Conference on Learning Representations)投稿结果正式公布。上海人工智能实验室自动驾驶 OpenDriveLab 团队成果 —— 基于自监督几何建模的自动驾驶策略预训练方法(PPGeo)被正式录用。PPGeo 是一个基于几何建模的自监督预训练框架,利用大量无标注网络驾驶视频,以自监督的方式对驾
机器之心专栏 作者:孙桥 来自清华、MIT的研究团队提出了一种基于自监督学习的方法,让自动驾驶模型从已有的轨迹预测数据集中学会正确判断冲突中的礼让关系。 自动驾驶汽车上路时,不可避免的需要学习一些道路上的“潜规则”。自动驾驶系统需要察言观色,随机应变地及时发现什么时候应该减速礼让,什么时候又应该发现别人正在礼让而尽快加速通过。由于道路环境的复杂性,很多新手司机都未必能够做出合适的判断。 这种复杂性导致基于规则的方法很难在覆盖到全部情况的同时不出现互相冲突的情况。来自清华大学的研究团队提出了一种基于自监督学习
不久前,机器之心曾报道了谷歌的量子霸权论文。实现强大的量子计算必不可少的就是对量子进行门控制,以此来保证去除干扰的量子状态,保证正确的量子信息能够精确快速地通过控制门。
选自arXiv 机器之心编译 参与:乾树、刘晓坤 Yann LeCun 团队近日提出一种新型框架,错误编码网络 Error-Encoding Networks,可在不确定环境中执行时间预测。实验证明它能够持续生成多种预测,而不需要在隐空间或对抗训练中交替进行最小化,并直接避免了模式崩溃问题。 在时间序列中学习前向模型是人工智能的核心任务,此类模型常应用于无监督学习、规划和压缩。这项任务面临的一个主要挑战是如何处理多时间序列的多模式问题。当一个时间序列有多种有效的演化方向时,使用经典的 L1 或 L2 损失来
现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型Merlin(梅林)。
领取专属 10元无门槛券
手把手带您无忧上云