前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI落地AR升华——“你是个什么垃圾?”终于有答案了

AI落地AR升华——“你是个什么垃圾?”终于有答案了

作者头像
AiTechYun
发布2019-07-30 13:59:03
5550
发布2019-07-30 13:59:03
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

最近,上海人民的日子真的不太好过。

相信大家已经了解到,这次“垃圾分类运动”是动真格的了。上海作为垃圾分类“新时尚”的引领者,从 7 月 1 日起,已正式实施 《上海市生活垃圾管理条例》。条例规定,个人混合投放垃圾今后可最高罚 200 元,单位混装混运,最高可罚至 5 万元,而且违规还将会列入征信,堪称“史上最严垃圾分类措施”。

而计划到2020年底,全国会有46个城市实施垃圾分类。

垃圾分类的浪潮轰轰烈烈的袭来,引得无数网友既紧张又纠结,值得庆幸的是,为了解决市民关于垃圾分类的烦恼,支付宝“AR智能识别”垃圾分类小程序日前上线了,上支付宝AR扫便可以识别垃圾。

支付宝垃圾分类小程序集AR、图像、语音、文字4种识别方式。打开支付宝首页-扫一扫-AR模式,对准垃圾就能识别。如遇到未识别出的物品,也可手动或语音输入垃圾名称。

根据官方公布的数据显示,AR识垃圾试运行第1周,已经有超过300万人查询,其中虾壳、面膜、瓜子壳、包裹着猫屎的猫砂等荣登十大“拎不清”垃圾,市民查询次数最多。

这次支付宝“AR智能识别”垃圾分类小程序借助计算机视觉技术和可视化技术,可以实现在物理世界叠加虚拟信息,并将虚拟信息准确“放置”在物理世界中。这样也是人机互换的重要形态。所以是AI+AR?

那么,AR究竟属不属于我们认知中的人工智能?AR和AI之间到底是什么关系?

先让我们看看AI和AR分别能做什么。

AI和AR的用处

AI的用处:

声音:语音输入法、通话语音转为文字、视频语音翻译为多国语言、机器人语音等

图像:证件和牌照的识别、判断植物动物的图像分类、相似图像搜索、图像审核等

自然语言:词法分析、文字相似度、机器翻译、情感倾向分析、文字审核等

人脸和人体:眼睛鼻子嘴巴等位置、实名制的人脸对比、人体四肢动作、活体检测等

AR的用处:

AR内容:身边有只精灵跟着转、地面上有座古堡可以进去看、包装盒不用打开就看见里面等

AR互动:在房间里照顾虚拟的起司猫、多人用虚拟的玩具玩游戏等

AR+AI:人脸贴纸、人脸美颜、体感游戏、拍照实时翻译等

关于AR的核心技术:

AR增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术,通过多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,让人们在感官上实现对真实世界的“增强”。

这种增强主要是针对视觉、听觉甚至是触觉,其中人们对现实世界的认知主要是来自于视觉,所以通常是需要通过摄像机来帮助获取信息,以图片或视频的形式呈现。通过视频,实现对三维世界环境的感知理解。

典型AR流程

AI和AR的技术关联:

在人工智能领域有几个概念常被提及,如深度学习(DL)、机器学习(ML),在学术领域包括人工智能(AI)在内几大领域均有自己的研究界限,而在普遍意义上,我们常说的是泛意的人工智能,涵括所有“让机器像人一样”的技术的应用方向。

从这张图也可以简单一窥三者的关系,深度学习是实现机器学习的一种技术方式,而机器学习是为了让机器变得智能,去达到人工智能。可以说人工智能是最终目标,而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中,还有另一个重要概念为计算机视觉(CV),主要来研究如何让机器像人去“看”,是目前人工智能概念中的一个重要分支,这也是因为人类获取信息最主要的方式之一就是视觉,目前计算机视觉已经在商业市场发挥价值,比如人脸识别;自动驾驶中读取交通信号和注意行人以导航;工业机器人用来检测问题控制过程;三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。

在AR的核心技术中,3D环境理解、3D交互理解和计算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里主要对应的是计算机视觉领域,而近年来深度学习在计算机视觉中得到广泛应用。交互方面,更趋自然的交互方式如手势和语音在硬件终端的使用,得益于近几年深度学习在相关领域的突破。也可以说,深度学习在AR中应用主要在视觉关键技术。

目前,AR最常见的形式是2D图片扫描识别,如腾讯QQ-AR火炬活动、支付宝五福等多数AR营销中所见,用手机扫描识别图出现叠加的内容,但主要的研发方向还在3D物体识别和3D场景建模。

现实的物体是以3D形态存在的,有不同的角度和空间方位。所以一个自然的扩展就是从2D图片识别到3D物体识别,识别物体的类别和姿态,深度学习可以用在这里。以水果识别为例,识别不同类别的水果,并且给出定位区域,即集成了物体识别与检测的功能。

3D场景建模,从识别3D物体扩大到更大更复杂的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等,这就是3D场景建模,是AR比较核心的技术。这其中涉及目前热门的SLAM(实时定位与地图构建)。通过扫描某个场景,然后在上面叠加虚拟战场等三维虚拟内容。如果只是基于普通2D图像识别就需要有特定的图片,而在图片不可见时会识别失败。而在SLAM技术里面,即使特定平面不存在,但是空间定位依然非常精确,就是因为有周围3D环境的帮助。

这里想探讨下深度学习和SLAM技术的融合,计算机视觉大体上可以分两个流派,一种基于学习的思路,例如特征提取-特征分析-分类,目前深度学习技术在这一路线上取得了主导性的地位。另外一种路线是基于几何的视觉,从线条、边缘、3D形状推出物体的空间结构信息,代表性的技术就是SFM/SLAM。基于学习的方向上深度学习基本上一统天下,但是在基于几何视觉的领域,目前相关的进展还很少。从学术界而言,深度学习技术的研究进展可以说日新月异,而SLAM技术最新十年的进展相对较少。在国际视觉顶级会议ICCV 2015年度组织的SLAM技术专题讨论会上,基于近年深度学习在视觉其它领域的快速发展,有与会专家曾提出SLAM中采用深度学习的可能性,但是目前还没有成熟的思路。总体而言,短期内将深度学习和SLAM融合是一个值得研究的方向,长远来看联合语义和几何信息是一个非常有价值的趋势。因此,SLAM+DL值得期待。

图片来源:百度

在交互方式方面,主要的包括语音识别和手势识别,语音识别在目前已经取得了较大进展,国内如百度、科大讯飞、云知声等都是其中的佼佼者,AR公司更想突破的是手势识别的成熟商业化。

以上不难看出,AR的底层技术或者说基础部分是计算机视觉以及关联领域的融合,而当下热门的深度学习和AR的结合,也是算法工程师们的努力方向。这也是AR为计算机视觉与人机交互的交叉学科,AR的基础是人工智能和计算机视觉等说法的依据。

计算机视觉与AR流程关联

AR究竟属不属于AI?

未来,AR技术可以在众多的领域实现应用,比如,医疗、军事、教育、娱乐、游戏等等。而众所周知的是,传统的AR应用,只能把虚拟或者脑洞大开设想出的物体静止的呈现出来,而在行为形态和感知上毫无作用,也就是说,只能在视觉上产生真实感,仅此而已。

然而,如果将AI技术融入到AR应用上,其整体的真实感无论是从视觉还是从意识形态和行为上会更加生动,接近真实。

AR+AI结合的流程:

AR采集现实物体信息–>AI处理并返回信息–>AR叠加虚拟信息在现实物体上

AR+AI组合的角色:

AR不一定依赖AI,但拥有AI能有个聪明的大脑。

AI不依赖AR,但拥有AR会有个漂亮的外貌。

我倒觉得,与其说AR和AI是科技下不同类型的产物,倒不如说他们是一对亲密的恋人。

虽然把它们分开,各自也都可以有更好的发展,而一旦他们强强联合,其所绽放出的光彩足够让你震撼。

End

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI和AR的用处
  • AI的用处:
  • AR的用处:
  • 关于AR的核心技术:
  • AI和AR的技术关联:
  • AR究竟属不属于AI?
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档