前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器人视觉中的独特挑战

机器人视觉中的独特挑战

原创
作者头像
努力毕业的菜狗
修改2021-03-04 17:57:37
8880
修改2021-03-04 17:57:37
举报

序言

本文来自于《The Limits and Potentials of Deep Learning for Robotics》,该论文是从2016年的机器人技术大会(RSS)上的特邀演讲者和 "The Limits and Potentials of Deep Learning for Robotics "研讨会的组织者提供的想法和观点中整理的。

论文中的主要观点提出时间在16年,该论文与18年发布在arxiv上,19年被IJRR期刊收录,现在来看论文中提到的一些挑战依旧没有被完全解决,值得大家继续思考,​也给大家指明了前进的方向。

背景

机器人是一个主动智能体,它能在物理现实世界中行动,并与之互动。它通过不同的传感器感知世界,建立一个连续的世界模型,并随着时间的推移更新这个模型,但最终机器人必须做出决策,规划行动,并执行这些行动以完成有用的任务。

从机器人本身的角度出发,那么机器人中的视觉问题与计算机视觉问题的根本不同之处就在于:对机器人而言,感知只是一个更复杂的、具身的、主动的、目标驱动的系统的一部分。因此,机器人视觉必须考虑到它的输出(比如物体检测、分割、深度估计、3D重建等),最终将变成现实世界中的行动。简而言之,计算机视觉获取图像并将其转化为信息,而机器人视觉则将图像转化为行动。

机器人视觉和计算机视觉之间的这一根本区别,可以从三个方面提出许多研究挑战:学习、具身和理解。根据这些挑战不断增加的复杂性及其依赖性对这些挑战进行分类。

A 学习挑战

表1:机器人视觉的学习挑战

层级

项目

问题描述

5

主动学习

系统能够以一种数据高效的方式自行选择信息量最大的样本进行增量学习,例如利用其在预测中的估计不确定性。它可以要求用户提供标签。

4

类增量学习

系统可以学习新的类,最好使用one-shot或few-shot学习技术,而不会出现遗忘性灾难。系统需要用户提供这些新的训练样本以及正确的类标签。

3

增量学习

系统可以从已知类的新实例中学习,以解决领域适应或标签偏移问题。它需要用户选择这些新的训练样本。

2

识别未知

在开放的场景下,机器人可以可靠地识别未知类的实例,并且不会被分布外的数据所欺骗。

1

不确定度估计

该系统可以正确估计其不确定性,并返回经过校准的置信度分数,这些分数可以作为贝叶斯数据融合框架中的概率。目前贝叶斯深度学习的工作就属于这一类。

0

闭合场景下的学习

该系统可以检测和分类训练期间已知类的对象。它提供未经校准的置信度分数,该分数与系统对标签概率的信念成正比。最先进的方法,如YOLO9000、SSD、Mask R-CNN都处于这个水平。

这个方面的挑战主要包括:因在开放条件下部署而引起的问题,两种形式的增量学习和主动学习,具体如下:

1. 不确定性估计 为了将深度学习充分整合到机器人技术中,最重要的就是深度学习系统能够可靠地估计其预测的不确定性。这样将使机器人能够像对待任何其他传感器一样对待深度神经网络,并使用成熟的贝叶斯技术将网络的预测与先前的知识或其他传感器测量融合在一起,或者随着时间的推移积累信息。深度学习系统,例如用于分类或检测,通常从其softmax层返回的分数与系统的置信度成正比,但不是准确的概率,因此不能用于贝叶斯传感器融合框架中。如果只是单纯的融合各个模态的信息,已经有了一些工作,将贝叶斯滤波估计如卡尔曼滤波、非线性卡尔曼滤波、粒子滤波等思想融合到了深度学习框架中。目前主要的一些方法包括:神经网络系统标定矫正、贝叶斯深度学习,近似方法包括:Dropout、模型集成等。

2. 识别未知: 深度学习中一个常见的假设是:训练好的模型将在闭集条件下进行部署,即部署过程中遇到的类是已知的,与训练时完全相同。然而,机器人往往要在不断变化的、不受控制的真实环境中运行,不可避免地会遇到训练数据没有覆盖的类、场景、纹理或环境条件的实例。在开放场景下,未知类别的识别非常重要,感知系统不得为未知物体分配高可信度分数,也不能将其错误地识别为已知类别之一。这个方向,CVPR2021上面已经提出了OWOD,即面向开放世界的目标检测,可以沿着这个思路继续思考。

3. 增量学习: 对于许多机器人应用来说,与训练数据相比,部署场景中物体的特征和外观可能会有很大的不同。为了解决这个域适应问题,机器人视觉系统应该能够在部署过程中从已知类的新训练样本中学习,并相应地采用其内部表示。

4. 类增量学习: 在开放条件下运行时,部署方案可能包含在训练期间不可用的新类别。因此,机器人需要有能力扩展其知识并有效地学习新的类,而又不会忘记先前学习的表示形式。这种类增量学习最好采用one-shot或few-shot学习技术,以提高数据效率。能够利用未标记数据的半监督方法尤其令人感兴趣。目前的类增量学习技术依旧依赖于监督方法,要求用户必须特别告诉系统哪些样本是新数据,应该被纳入学习过程。

5. 主动学习: 机器人应该能够自行选择信息量最大的样本进行增量学习技术。由于它必须向人类用户询问这些选定样本的真实标签,因此数据效率是最大限度地减少这种与用户互动的关键。主动学习还可以包括从其他来源(如网络)检索注释。目前的方法是利用基于近似贝叶斯推理的不确定性估计技术来选择信息量最大的样本。

B 具身性挑战

表2:机器人视觉的具身挑战

层级

项目

任务描述

4

主动操纵

作为主动视觉的延伸,系统可以操纵场景来帮助感知。例如,它可以移动一个被遮挡的物体,以获得隐藏在下面的物体的信息。

3

主动视觉

系统已经学会了主动控制摄像头在世界中的移动,例如它可以将摄像头移动到更好的视角,以提高其感知信心或更好地处理遮挡物。

2

空间具身化

该系统可以利用空间连贯性的各个方面,并结合从不同视点拍摄的物体的视图,以提高其感知能力,同时处理遮挡物。

1

时间具身化

系统了解到,它在时间上是嵌入的,连续是强相关的。系统可以随着时间的推移积累证据,以提高其预测能力。外观随时间变化可以应对。

0

系统对任何形式的体现都不理解,并将每一幅图像都视为独立于先前看到的图像。

具身性是机器人视觉的基本特征,也是机器人视觉与计算机视觉的本质区别。这个方向的挑战主要包括:理解和利用时间和空间具身性有助于改善感知,同时也能让机器人视觉进行主动视觉,甚至对环境进行有针对性的操作,进一步改善感知。

1. 视觉具身性: 与将每个图像视为独立的典型计算机视觉系统不同,机器人视觉系统感知连续的图像流,因此具有高度相关性。虽然目前关于动作识别、从演示中学习以及计算机视觉中类似方向的工作都是在视频数据上进行的,但目前很少利用时间具身的潜力来提高物体检测或语义分割的感知过程的质量:例如,使用其时间具体化的机器人视觉系统可以例如随着时间的推移而积累证据(如前所述,如果不确定性估计可用,则最好使用贝叶斯技术)或利用动态场景中随时间变化的微小视点变化。

时间具身性的一个具有挑战性的问题是:场景的外观会随着时间而改变。环境可以包括动态物体,如汽车或行人在摄像机的视场中移动。环境也可以由不同的照明条件(白天/夜晚)、物体的结构变化(夏季/冬季)或物体的存在和姿势的差异(例如,工作时间和下班时间的办公室)引起的外观变化。机器人视觉系统必须应对所有这些影响。

2.空间的具身性: 在机器人视觉中,观察世界的摄像头是在世界活动和移动的更大的机器人系统的一部分。当机器人在环境中移动时,摄像头会从不同的视点观察场景,这对机器人视觉系统来说既是挑战也是机遇。从不同的视角观察一个物体可以帮助识别它的语义属性,改善深度感知,或者在杂乱的场景中把一个物体与其他物体或背景隔开。另一方面,遮挡和由此产生的剧烈的外观变化使视觉感知复杂化,需要物体统一性和物体持久性等能力,而人类视觉系统天然就具备这些能力。

3. 主动视觉: 机器人视觉在具身性中的最大优势之一就是可以控制摄像机,移动摄像机并更改其视点,以改善其感知能力或收集有关场景的其他信息。这与大多数计算机视觉场景形成鲜明对比,在大多数计算机视觉场景中,相机是被动传感器,可以从放置位置观察周围环境,而无需控制其姿势。

在下一个最佳视角预测可以提高物体检测或辅助移动机器人探索路径规划,但目前的研究还缺少一种更全面的主动场景理解方法。这样的主动式机器人视觉系统系统可以控制摄像机在整个世界范围内的移动,从而提高系统的感知置信度,解决歧义,减轻遮挡或反射的影响。

4. 操纵感知 作为主动视觉的延伸,机器人系统可以有目的地操纵场景以帮助其感知。例如,机器人可以移动被遮挡的物体以获得隐藏在下面的物体的信息。规划这样的动作需要了解场景的几何形状,有能力推理出某些操作动作将如何改变场景,以及这些改变是否会对感知过程产生积极影响。

C 理解挑战

表3:机器人视觉的理解挑战

层级

项目

问题描述

3

联合理解

该系统以紧密耦合的方式共同地对语义和几何进行推理,从而使语义和几何可以相互共同联系。

2

对象和场景几何理解

该系统学会了推理单个物体的几何形状和形状,以及一般场景的几何形状,例如绝对和相对的物体姿态,支撑表面以及物体在遮挡下和杂波下的连续性。

1

对象和场景语义理解

该系统可以利用先前的语义知识来提高其性能。它可以利用关于哪些对象更有可能在一个场景中同时出现的先决条件,或者对象和整个场景类型的相关性。

0

该系统不进行任何复杂的推理,例如,它将每个检测到的对象视为独立于其他对象或整体场景。对语义和几何的估计被视为独立的。

赫尔曼-冯-赫尔姆霍兹提出了人类在处理视觉信息时,大多使用无意识理解、推理或结论的观点。此后,心理学家们设计了各种实验来研究这些无意识机制,将赫尔姆霍兹的原始观点赋予现代的手段,并在贝叶斯推理的框架下重新表示。基于此,可以将理解分为三个挑战,解决关于场景及其中对象的语义和几何的单独和联合的理解。

1. 对象和场景语义的理解: 人类周围的世界包含了许多语义规律性,人类利用这些规律性来帮助自己的感知,比如:物体往往在某一情境中出现的频率比在其他情境中出现的频率要高(如在厨房或餐桌上更容易找到一把叉子,但在浴室中找到它的可能性较小),有些物体往往成群出现,有些物体在一个场景中很少一起出现等等。语义规律性还包括物体在场景中的绝对姿态,或物体相对于其他物体的相对姿态。

尽管语义规律和上下文信息对于人类感知过程的重要性在心理学中是众所周知的,但是当前的对象检测系统并未利用这种丰富的信息源。如果现实世界中存在的许多语义规律可以以先验知识的形式被学习或以其他方式提供给视觉系统,那么可以期待一种改进且更强大的感知性能:上下文可以帮助消除歧义或纠正预测和检测。

目前一些工作包括:方法使用条件随机场明确地建模和利用对象和整体场景之间的几种语义和几何关系来理解场景。依旧有工作证明了利用学习的场景-对象先验来进行地方分类和改进的对象检测的组合。也有一些工作,通过设计一种使用深度神经网络进行整体场景理解的方法,该网络可以学习利用来自训练数据的上下文信息。

2. 对象和场景几何的理解: 机器人技术中的许多应用都需要了解单个物体或整个场景的几何形状。从单张图像估计场景的深度已经成为一个广泛研究的课题。同样,目前有很多工作是在没有深度信息的情况下,从单个或多个视图中估计物体的三维结构。这些方法通常是在只有一个或几个突出且清晰分离的物体的图像上进行评估。然而对于机器人应用来说,杂乱的场景是非常常见的。

先前讨论的不确定性估计和处理未知对象的问题也适用于此:例如,使用推断的几何形状来抓取对象的机器人视觉系统在计划抓取点时需要能够在推断的对象形状中表达不确定性。类似地,它应该能够利用其具身性优势将摄像机移至更好的视点,以有效地收集新信息,从而能够更准确地估计物体的几何形状。

作为对单个物体推理的延伸,对整个场景的几何推理对机器人视觉来说非常重要,与基于对象的地图或基于对象的SLAM问题密切相关。利用语义和先验知识可以帮助机器人视觉系统更好地推理场景结构,例如物体的绝对和相对姿态、支撑面以及物体在遮挡情况下的连续性。

3. 语义与几何的联合理解: 在现实的开放场景条件下,提取复杂环境中物体、环境结构及其各种复杂关系和场景几何的信息的能力对于机器人来说越来越重要。因此,对机器人视觉系统的最后一个推理挑战是对场景和其中的物体的语义和几何共同理解的能力。由于语义和几何可以相互联合推理,紧耦合的理解方法比松耦合的方法更有优势,松耦合的方法是分别对语义和几何进行推理。

- END -

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 序言
  • 背景
  • A 学习挑战
  • B 具身性挑战
  • C 理解挑战
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档