首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

颤抖吧人类,MIT的研究人员让人工智能学会看3D了

现在人工智能的一个大的问题,就是它们很强大能输出或解决一些很牛的东西,然而它们却不知道自己输出或解决的这个东西是啥。机智客举例子说,即便AI可以用GAN这类技术生成连人和鉴别器都分辨不出真假的假图片了,它们依然不知道自己输出的到底是个什么玩意。是人是鬼,是猫是狗?这个在AI视觉中更是如此。平面图如此,更何况物理世界里各种的3D场景呢?在AI视觉里,更不可能分辨得出3D了。

不过,现在似乎有点不一样了。AI居然开始学习“看”3D了。这也是MIT的研究人员最近在NeurIPS 2021发表的论文里的研究结果,该论文提出一个基于概率推理的3D场景感知的生成模型3DP3。就是让AI拥有3D感知能力。

那么这个3DP3是什么呢?其实是一个用概率编程的生成式的建模框架。使用离散的物体及其三维形状和一个称为场景图(scene graph)的层次结构来表示场景,其中场景图的层次结构与物体的位置和朝向有关。

这个建模框架的一个很特别的一点是,它能分辨出不同物体之间的放置关系,也就是说,它通过一个RGB图和对应的深度图,推断出一个层次的3D场景图,这意味着3DP3有点像我们人类一样有基本的常识判断,能分辨出这个3D场景,比如杯子和书籍是放在桌子上的,其中书籍对于观察者而言是斜着放置的。从深度图中实际上已经可以知道各个物体的位置和朝向了。这真算是“学会看”3D场景或物理世界了。

另外,3DP3使用概率编程(probabilistic program)的形式来表示三维场景的结构化生成模型。它这种根据图像中各个物体的接触关系进行场景图建模的方式,被认为是基于常识的推断,和我们人类的推断是相同的。我们就能通过物体和物体的接触关系而得出一些观感的结论。以此为基础进而搭建场景图推理算法。而根据实验结果,3DP3可以预测几乎所有的各种形状的物体,而物体形状的建模这块,框架是通过一个体素的物体形状学习方法来实现的。3DP3的这一点尤其重要,对于深度学习的黑盒模型来说是一个强有力的解释操作。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211219A09FZA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券