在单帧上模拟第二个隐藏的物理场景进入未来，以预测行星的轨迹？ - 腾讯云开发者社区

选自DeepMind 作者：Adam Santoro等机器之心编译参与：机器之心编辑部想象一下在阿加莎·克里斯蒂（《东方快车谋杀案》作者）的侦探小说里收集所有证据找出犯人的读者，在足球滚到河边时上前停球的小孩，甚至一个购物者在购买水果时比较猕猴桃和芒果的优点。人类将这个世界理解为事物之间的关系。我们了解世界运行的方式，因为我们能对不同事物之间的联系做出逻辑推理——物理对象、语句，甚至抽象的想法。这种能力被称为关系推理，它是人类智能的核心。我们以每天所有感官接收到的非结构化信息为基础构建这种关系。

DeepMind AI 关系推理超越人类：深度神经网络模块即插即用

【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文，称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN，能够预测视觉场景中各个物体在未来几百步所处位置，另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN，可以“即插即用”，提升其他深度神经网络结构（如 CNN）关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明，RN 的总体推理正确率已经达到 95.5%，超越人类水平。研究一：视觉互动网络 VIN，从原始视觉观察中学习真

014

您找到你想要的搜索结果了吗？

是的

没有找到

干货 | 猿桌会 56 期 - 葛笑雨：应用于智能体的空间物理定性推理技术

Nat. Commun. | AI语言工具揭示分子运动

大家好，今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章，文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pratyush Tiwary。通过将自然语言处理工具应用于蛋白质分子的运动，马里兰大学的科学家创造了一种抽象语言，用于描述蛋白质分子可以采取的多种形状，以及如何以及何时从一种形状转变为另一种形状。

Wayve：从源头讲起，如何实现以对象为中心的自监督感知方法？（附代码）

以对象中心的表示使自主驾驶算法能够推理大量独立智能体和场景特征之间的交互。传统上，这些表示是通过监督学习获得的，但会使感知与下游驾驶任务分离，可能会降低模型的泛化能力。在这项工作中，我们设计了一个以对象为中心的自监督视觉模型，仅使用RGB视频和车辆姿态作为输入来实现进行对象分割。我们在Waymo公开感知数据集上证明了我们的方法取得了令人满意的结果。我们发现我们的模型能够学习一种随时间推移融合多个相机姿势的表示，并在数据集中成功跟踪大量车辆和行人。我们介绍了该方法的起源和具体实现方法，并指明了未来的发展方向，为了帮助大家更好地复现代码，我们将详细地参数列入附表。

AAAI 2023 Oral | 对自然条件下的点云序列中手物交互的位姿追踪与重建

本文是 AAAI 2023 Oral 入选论文 Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild 的解读。本论文由北京大学王鹤研究团队与北京通用人工智能研究院、弗吉尼亚理工大学、斯坦福大学、清华大学、哥伦比亚大学合作，针对追踪并重建一段输入点云序列中的手和物体这一任务进行了研究。

做自动驾驶涉及哪些技术？超全总结上线

自2004/05年DARPA的“大挑战”（rural）和2007年的“城市挑战”以来，自动驾驶一直是人工智能应用中最活跃的领域。

解读 | 如何使用深度强化学习帮助自动驾驶汽车通过交叉路口？

机器之心原创作者：Shixin Gu 参与：Hao、Panda 交叉路口是自动驾驶系统所面临的难点之一。今年五月，来自宾夕法尼亚大学、本田研究院和乔治亚理工学院的研究者提出了一种使用深度强化学习帮助自动驾驶汽车通过交叉路口的方法。机器之心技术分析师 Shixin Gu 对这项研究进行了解读，论文原文可访问：https://arxiv.org/abs/1705.01196 对无人汽车的研究已经不再仅仅局限于识别交通灯或交通标志的简单过程，而已经扩展到了多个生活场景中。用于衡量自动汽车的一个关键标准是看自动汽

7 Papers & Radios | DeepMind用AI复原古希腊铭文登Nature封面；单GPU调优GPT-3超参数

机器之心 & ArXiv Weekly Radiostation 参与：杜伟、楚航、罗若天本周论文包括 DeepMind 用 AI 复原古希腊铭文，登 Nature 封面；微软联合 OpenAI 提出超参数调优新范式，单个 GPU 上就可以调优 GPT-3 超参数。目录： Restoring and attributing ancient texts using deep neural networks Tensor Programs V: Tuning Large Neural Networks v

视觉多目标跟踪算法综述（上）-附开源代码下载链接整理

目标跟踪是机器视觉中一类被广为研究的重要问题，分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标，后者则同时跟踪视频画面中的多个目标，得到这些目标的运动轨迹。

基于深度学习的多目标跟踪（MOT）技术一览

本文是一篇多目标跟踪方向的调研报告，从相关方向、核心步骤、评价指标和最新进展等维度出发，对MOT进行了全面的介绍，不仅适合作为入门科普，而且能够帮助大家加深理解。

Action perception as hypothesis testing

我们提出了一种新颖的计算模型，将动作感知描述为一种主动推理过程，结合了运动预测（重用我们自己的运动系统来预测感知运动）和假设检验（使用眼球运动来消除假设之间的歧义）。该系统使用如何执行（手臂和手）动作的生成模型来生成特定假设的视觉预测，并将扫视引导到视觉场景中信息最丰富的位置，以测试这些预测和潜在的假设。我们使用人类行为观察研究中的眼动数据来测试该模型。在人类研究和我们的模型中，每当上下文提供准确的动作预测时，眼跳都是主动的；但不确定性会通过跟踪观察到的运动而引发更具反应性的凝视策略。我们的模型提供了一种关于行动观察的新颖视角，突出了其基于预测动态和假设检验的主动性质。

机器人强化迁移学习指南：架设模拟和现实的桥梁

近年来，强化学习（Reinforcement learning）在人工智能领域中表现出了显著的性能，例如基于原始像素的 Atari 游戏，连续复杂控制策略的学习，以及在围棋游戏 Go 中超越人类的表现等。

视觉多目标跟踪算法综述（上）-附开源代码下载链接整理

自动驾驶轨迹预测算法：NeurIPS挑战赛冠军方案

近日，美团无人车配送中心团队获得NeurIPS 2020 INTERPRET轨迹预测挑战赛Generalizability赛道冠军、Regular赛道亚军。本文主要是算法层面的介绍，希望能给从事相关工作的同学有所帮助或者启发。

学界 | 如何有效预测未来的多种可能？LeCun的误差编码网络给你带来答案

AI 科技评论按：许多自然问题都有一定的不确定性，比如一个杯子从桌上掉地，它可能躺在桌角、立在凳子下面，甚至直接摔碎。这种具有多种可能结果的未来预测一直是一个难题。深度学习三驾马车之一的 Yann L

thinktwice：用于端到端自动驾驶的可扩展解码器（已开源）

题目：Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。

thinktwice：用于端到端自动驾驶的可扩展解码器（已开源）

题目：Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving

Google研究主管：非技术专家如何利用机器学习解决问题

但是，多数人认为只有那些懂技术的专家才能用好它。其实，现在机器学习已经集成到了各个领域，并且对用户非常友好。一些非技术的小白完全能够使用现成的软件解决自己领域的专业问题。

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第18章强化学习

（第二部分：深度学习）第10章使用Keras搭建人工神经网络第11章训练深度神经网络第12章使用TensorFlow自定义模型并训练第13章使用TensorFlow加载和预处理数据第14章使用卷积神经网络实现深度计算机视觉第15章使用RNN和CNN处理序列第16章使用RNN和注意力机制进行自然语言处理第17章使用自编码器和GAN做表征学习和生成式学习第18章强化学习 [第19章规模化训练和部署TensorFlow模型]

连续时间主动推理控制综述

大脑选择和控制行为的方式仍然存在广泛争议。基于最优控制的主流方法侧重于优化成本函数的刺激响应映射。观念运动理论和控制论提出了不同的观点：它们认为，通过激活动作效果并不断将内部预测与感觉相匹配来选择和控制动作。主动推理在推理机制和基于预测误差的控制方面提供了这些想法的现代表述，可以与生物体的神经机制联系起来。本文提供了连续时间主动推理模型的技术说明，并简要概述了解决四种控制问题的主动推理模型；即目标导向的到达运动的控制、主动感知、运动过程中多感官冲突的解决以及决策和运动控制的集成。至关重要的是，在主动推理中，电机控制的所有这些不同方面都来自相同的优化过程，即自由能量的最小化，并且不需要设计单独的成本函数。因此，主动推理为运动控制的各个方面提供了统一的视角，可以为生物控制机制的研究以及人工和机器人系统的设计提供信息。

一文尽览 | 轨迹预测二十年发展全面回顾！

论文：A Survey on Trajectory-Prediction Methods for Autonomous Driving

how we learn part2 第三章婴儿全面的内在知识金句

当机器配备有两个特征时,学习会更加有效:一个巨大的假设空间,一组有无数设置可供选择的心智模型;和复杂的算法,根据从外部世界接收的数据调整这些设置。在关于先天和后天的辩论中,我们都低估了这两者!

主动推理中序列动力学的生成模型（连续离散）

Generative models for sequential dynamics in active inference

基于无标注网络驾驶视频，自动驾驶策略预训练新方法 | ICLR 2023

机器之心专栏机器之心编辑部通过观看大量网络上的驾驶视频，模型能否学会驾驶策略？ 2023 年 1 月 21 日，人工智能顶级会议 ICLR 2023（International Conference on Learning Representations）投稿结果正式公布。上海人工智能实验室自动驾驶 OpenDriveLab 团队成果 —— 基于自监督几何建模的自动驾驶策略预训练方法（PPGeo）被正式录用。PPGeo 是一个基于几何建模的自监督预训练框架，利用大量无标注网络驾驶视频，以自监督的方式对驾

自动驾驶汽车如何解决复杂交互问题？清华联合MIT提出M2I方案

机器之心专栏作者：孙桥来自清华、MIT的研究团队提出了一种基于自监督学习的方法，让自动驾驶模型从已有的轨迹预测数据集中学会正确判断冲突中的礼让关系。自动驾驶汽车上路时，不可避免的需要学习一些道路上的“潜规则”。自动驾驶系统需要察言观色，随机应变地及时发现什么时候应该减速礼让，什么时候又应该发现别人正在礼让而尽快加速通过。由于道路环境的复杂性，很多新手司机都未必能够做出合适的判断。这种复杂性导致基于规则的方法很难在覆盖到全部情况的同时不出现互相冲突的情况。来自清华大学的研究团队提出了一种基于自监督学习

通往量子霸权之路：谷歌用强化学习优化量子门控制策略

不久前，机器之心曾报道了谷歌的量子霸权论文。实现强大的量子计算必不可少的就是对量子进行门控制，以此来保证去除干扰的量子状态，保证正确的量子信息能够精确快速地通过控制门。

学界 | LeCun提出错误编码网络，可在不确定环境中执行时间预测

选自arXiv 机器之心编译参与：乾树、刘晓坤 Yann LeCun 团队近日提出一种新型框架，错误编码网络 Error-Encoding Networks，可在不确定环境中执行时间预测。实验证明它能够持续生成多种预测，而不需要在隐空间或对抗训练中交替进行最小化，并直接避免了模式崩溃问题。在时间序列中学习前向模型是人工智能的核心任务，此类模型常应用于无监督学习、规划和压缩。这项任务面临的一个主要挑战是如何处理多时间序列的多模式问题。当一个时间序列有多种有效的演化方向时，使用经典的 L1 或 L2 损失来

GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大

现在，华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式，并基于这一范式构建了多模态大语言模型Merlin（梅林）。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐