首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

AAAI 2019 | 谷歌提出以无监督方式从单目视频中学习的结构化方法(附开源代码)

对自主机器人来说,感知场景的深度是一项重要的任务——准确估计目标离机器人有多远的能力对于避开障碍、安全规划以及导航来说至关重要。虽然可以从传感器数据(比如 LIDAR)中获得(学习到)深度值,但是也可以只依赖机器人的运动以及因此而产生的不同视角场景,以无监督的方式从单目相机中学到深度值。在这个过程中,也在学习「自我运动(Ego-motion)」(机器人/摄像机在两个帧之间的运动),它提供了机器人自身的位置。这种方法由来已久——来自 SfM(Structure-from-Motion,运动恢复结构)和多视图地理范式——是基于技术的新学习,具体来说就是通过使用深度神经网络对深度和自我运动进行无监督学习,刷新了当前的最佳结果,包括 Zhou 等人的研究(《Unsupervised Learning of Depth and Ego-Motion from Video》)以及作者之前的研究(《Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints》,在训练期间对准场景的 3D 点云)。

03

OpenCV3 和 Qt5 计算机视觉:1~5

在最基本的形式和形状中,“计算机视觉”是一个术语,用于标识用于使数字设备具有视觉感觉的所有方法和算法。 这意味着什么? 好吧,这就是听起来的确切含义。 理想情况下,计算机应该能够通过标准相机(或与此相关的任何其他类型的相机)的镜头看到世界,并且通过应用各种计算机视觉算法,它们应该能够检测甚至识别并计数人脸。 图像中的对象,检测视频馈送中的运动,然后执行更多操作,这些操作乍一看只能是人类的期望。 因此,要了解计算机视觉的真正含义,最好知道计算机视觉旨在开发方法以实现所提到的理想,使数字设备具有查看和理解周围环境的能力。 值得注意的是,大多数时间计算机视觉和图像处理可以互换使用(尽管对这个主题的历史研究可能证明应该相反)。 但是,尽管如此,在整本书中,我们仍将使用“计算机视觉”一词,因为它是当今计算机科学界中更为流行和广泛使用的术语,并且因为正如我们将在本章稍后看到的那样,“图像处理”是 OpenCV 库的模块,我们还将在本章的后续页面中介绍,并且还将在其完整的一章中介绍它。

02
领券