前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >所见即所触,教AI实现触觉和视觉的信息交互

所见即所触,教AI实现触觉和视觉的信息交互

作者头像
大数据文摘
发布2019-07-18 20:20:05
6700
发布2019-07-18 20:20:05
举报
文章被收录于专栏:大数据文摘大数据文摘
大数据文摘出品

来源:MIT

编译:楚阳

在加拿大作家玛格丽特•阿特伍德的著作《盲人杀手》中有这样一段描述:“触觉,先于视觉也先于语言,既是第一语言也是最后的语言,并总是诉说真相。”

触觉使我们可以感受世界,而视觉帮助我们了解其全貌。

被编写为视觉或者触觉的机器人一般不能实现此两种感官信息的交互。为打破这种隔绝,来自MIT(麻省理工学院)CSAIL(计算机科学与人工智能实验室)的研究团队提出了一种可预测AI,它可以通过触觉信息的训练学习到视觉特征,反之亦然,也能通过视觉信息的训练学习到物体的触觉特征。

该团队所提出的模型可以从视觉信号中“创造”出逼真的触觉信号,并直接利用触觉信息预测所检测目标及触摸部位。他们使用的库卡机械臂上装有一个特殊的触觉传感器GelSight,这是由MIT的另一研究团队设计的。

相关链接:

http://news.mit.edu/2011/tactile-imaging-gelsight-0809

该团队利用一个简单的网络摄像头采集了近200种物体图像,包括工具、家庭用品、纺织物等,这些物体被“触摸”超过12000次。通过将这12000个小视频分解为静态帧从而生成了名为“VisGel”的数据集,该数据集包含300多万个视觉-触觉对应的图像。

CSALL博士生Yunzhu Li在其一篇相关论文中谈到:“通过观察触摸情景,我们的模型可以“想象”出触摸平坦表面或者尖锐边缘的感觉”,“当机器人只有触觉感官的时候,此模型可以仅凭触觉信号来完成和周围环境的交互。将触觉和视觉这两种感官结合在一起无疑是锦上添花。它还可能减少机器人为完成抓取任务所需的数据集”。

目前使能机器人具备更多感官能力的研究,比如MIT在2016年的项目:利用深度学习实现声音可视化、预测物体对外力反应,都使用了大量的训练数据,但不能实现视觉和触觉的交互。该团队使用VisGel数据集和生成式对抗网络(GANs)实现上述功能。

相关链接:

http://andrewowens.com/vis/

http://news.mit.edu/2017/computer-systems-predict-objects-responses-physical-forces-1214

此GANs算法利用视觉或触觉的图像生成其他形式的图像。其原理简而言之,就是GANs利用生成器(generator)捏造假的图像试图骗过判别器(discriminator),判别器将辨别结果反馈给生成器以调参,以使得生成器生成更高质量的预期图像,如此相得益彰。

所见即所触

人可以通过观察物体来判断其手感,欲将这种能力赋予机器人,首先要标定目标位置,其次要推断目标区域的形状和手感。

为此,需要一张参考图像,它记录了机器人没有与外界交互时的所处的环境信息。模型在识别过程中会对比当前捕捉到的帧图像和参考图像以轻松判断所触物体的位置和大小。

好比给模型“看”了一张鼠标的图像,模型将预测可能触碰到鼠标的区域,并告诉机器人从而使其实现安全高效的抓取任务。

所触即所见

利用触觉数据产生视觉图像即所谓“所触即所见”。模型通过观察触觉图像推断所接触位置的物体形状和材质,并和参考图像对比进而“想象”出交互过程。

举个例子,将一只鞋的触觉数据传给模型,其输出将是一张图像,这张图像则显示了最有可能触摸到这只鞋的区域位置。

当灯被关掉,或者盲人进入未知区域的时候,这种技能就可以发挥其作用了。

展望

目前的训练数据只能实现特定环境下的交互。该团队希望收集更复杂环境下的训练数据以提升模型的泛化性能。MIT的新设计——tactile glove或许可以帮助他们获取更多更密集的训练数据。

相关链接:

http://news.mit.edu/2019/sensor-glove-human-grasp-robotics-0529

翘首以盼,此类模型将协助机器人和其视觉紧密合作以实现无缝的人机交互。这些合作包括对象识别、抓取、场景理解等。

加州大学伯克利分校的博士后Andrew Owens说:“这是首次提出的视觉和触觉信号可靠的转换方法,此类方法于机器人而言将大有裨益,彼时,它们就可以回答诸如‘这东西的硬度如何?’,‘如果我用手柄握住马克杯,我会握得多好?’的问题,这是一个十分有挑战性的项目,因为问题的信号是如此的不同,其优越性也可见一斑”。

李和MIT的教授Russ Tedrake 、 Antonio Torralba,博士后Jun-Yan Zhu共同完成这篇论文。它将于下周在加利福尼亚长沙滩上举办的计算机视觉及模式识别大会上发布。

相关报道:

https://www.csail.mit.edu/news/teaching-artificial-intelligence-connect-senses-vision-and-touch

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档