图像识别——突破与应用

最近,图像识别领域发布了白皮书,简单翻译一下做个总结。

目录

[1] Introduction      1.1 Exponential Growth of Image and Video      1.2 Statistics [2] Image Recognition [3] Recent Innovations      3.1 Approaches      3.2 Deep Neural Networks [4] Applications      4.1. Information Organization      4.2. Industrial Automation and Inspection      4.3. Detecting events      4.4. Human-Computer Interaction      4.5. Modeling objects and environments      4.6. Navigation      4.7. Marketing, Sales, Customer Experience and Advertising      4.8. Weak AI vs. Strong AI


[1] 引言

1.1 图像和视频的指数级增长

从二十世纪中叶起,非结构化数据就以一个很快地速度在增长。然而,所产生的数据中有80%是非结构化的多媒体内容,未能把重点放在组织大数据的举措上,这个多媒体内容的很大一部分是图像和视频。智能无线设备的迅速普及以及通过互联网共享图像和视频的兴起,对这类内容的大规模增长作出了重大贡献。图像和视频反映了人类知识、互动和对话的很大一部分。如今,图像和视频数据中的大量知识为创造新的使用案例、应用和产品创造了极大的机会。几十年来,对图像的处理,理解和识别一直是人工智能(AI)和机器学习(ML)中的一个巨大的技术挑战,但在过去的十年里,已经有了一些突破。 人们现在使用智能手机相机与企业(零售商,金融机构,供应商,医疗服务提供商,保险公司等)进行通信(例如电子邮件,聊天,博客)的便利性也使得图像和视频在不同行业的公司进行沟通,并激励他们投资这个领域。图像和视频需要更大的存储和带宽容量以及更高的安全/隐私标准。对于这些应用程序中的许多应用程序,自动理解图像/视频将为增强客户体验提供新的商业机会。这使与非结构化数据增长相关的常见问题变得复杂化,例如数据保护成本不断上升,基础架构复杂性增加,数据消费增长速度快于IT存储占用增长。 创建和共享图像并不是图像识别流行的唯一原因。图片比文字更具有影响力,因为它们往往更具吸引力。图像更可能被共享和转发。人们利用图像/视频来捕捉他们的特殊时刻。但是,图像已经发展成为一种交流手段。 “Z时代” 的首选沟通方式被认为是图像。相反,千禧一代沟通的首选机制是文本。

1.2 统计

统计数据突出了近年来对图像识别兴趣大增的原因。首先,图像识别市场预计从2016年的159.5亿美元扩大到2021年的389.2亿美元,2016年至2021年的复合年增长率为19.5%。 Facebook是互联网上最大的图片分享网站。图片是Facebook上最大的数据使用来源。平均每天有3亿多张图片上传到网站上。这个数字起初可能令人震惊,但考虑到每天通过智能手机访问Facebook站点的活跃用户数量(每月20亿)(截至2017年2月1日,每天有11.5亿移动活跃用户)加上人们依赖这些设备上的相机,数字是有道理的。截至2016年9月1日,YouTube拥有每天10亿移动用户,每分钟视频上传到网站的时间为300小时。


[2] 图像识别

图像识别的目标是识别图像中的对象和人,并理解上下文。图像识别属于机器知觉,机器知觉是机器学习(ML)和人工智能(AI)的一部分。人类有很多感官——嗅觉、听觉、味觉、触觉(体感)和视觉这五种传统认知的感觉。构建智能机器人需要一定的能力来理解周围的环境,并通过视觉、言语和触觉来与之交互,此外还需要有某些与人类相似的运动和推理水平。几十年来,在工业机器人要完成的具体受控自动化任务的背景下,它们在其中一些领域的能力非常有限。对于许多工业自动化任务,通过利用其他类型的传感器(红外,距离传感器,磁性,超声波等)作为视觉的替代,简化了在受控环境中与感兴趣的对象的识别和交互。随着图像识别技术的进步,相机最终可以取代许多自动化应用中的这些传感器。 当我们谈论人类视觉感知时,我们讨论的是利用环境中物体所反射的可见光谱中的光线来解释周围环境的能力。最近对图像识别的兴趣激增主要集中在这种类型的感官输入上。例如,无人驾驶汽车需要显着改进的视觉处理和识别能力,此外,还有许多其他的关键感官输入来做出正确的决定。 一般来说,机器感知模拟人脑可以毫不费力地理解感官输入,特别是视觉、听觉和触觉。大脑的视觉皮层是处理来自眼睛的视觉信息的一部分。视觉在生命的早期阶段迅速发展,并作为发展认知、行动、沟通和与环境相互作用的基础。当我们更快速地处理视觉效果时,我们的大脑连接起来进行视觉沟通。人类处理视觉输入比文本快60,000倍。 处于早期阶段的儿童可以通过视觉学习识别许多不同的物体。人类的这种能力已经让科学家困惑了很长时间。具体而言,挑战在于设计在机器中复制这种能力所需的各种计算算法吗?令人惊讶的是,一个小孩子对汽车或其组件的内在作用一无所知,但是他/她可以毫不费力地在他/她看到的场景或图像中识别出汽车。孩子们如何学习这一点?他们通过例子来学习。 “通过实例学习”的概念对于AI / ML一般而言是特别重要的,机器感知是基本的。人工神经网络(以下简称ANN)是模仿机器学习的最流行的系统。ANNs 通过考虑他们需要学习什么样的例子(称为训练),可以逐步提高表现(即他们“学习”),大多没有特定任务的编程。受到大脑中神经元的启发,人工神经网络结构被组织在许多层次中,每层神经元可以对其输入执行不同类型的变换。


[3] 最近的变革

3.1 方法

图像识别历史悠久。在计算机视觉,物体识别,机器视觉,场景理解,图像理解,图像分类和图像分析等不同名称下,存在相关和/或同义字段的图像识别。计算机(或机器)的视觉总体上涵盖了识别作为一个子部分,同时它也涉及图像重组和重构。在更高层次上,有两种不同的技术方法能够解决图像识别任务。 第一种方法(我们称之为传统图像识别)的重点在于从图像中查找和提取人工设计的特征(如边缘,角落,颜色)以帮助分类对象。虽然人类的大脑非常擅长对物体进行分类(早年发展),但我们的大脑在视觉处理中将使用哪些特征尚不清楚。自80年代和90年代以来,传统的图像识别方法通常通过从图像中提取一系列特征来实现,实际上通过多年的实验和分析手动编码。然后使用学习算法来基于这些人工设计特征来识别图像中的对象。 在第二种方法中,目标仍然是提取帮助识别图像中的对象的特征。然而,它不是利用人工设计的特征,而是利用自动化程序从原始图像像素数据中“学习”这些显着的特征。学习使用大量的图像进行。人工神经网络模型,特别是深度神经网络,近年来已经彻底改变了这种方法。顾名思义,深层神经网络是可能具有更多神经元层的神经网络,其中每层神经元连接到下一层(不一定完全连接),并且能够学习输入图像的更高层表示(特征)。这个想法已经存在了很长一段时间,然而,在过去的十年中,实现了巨大的图像数据集和巨大的处理能力。它使这种方法变得可行,因为它已经引起了计算机视觉方面的革命。当使用深度神经网络时,学习被称为深度学习。

3.2 深层神经网络

ImageNet 和 Pascal VOC 是可用于研究和探索目的的两个大型开放式标记图像数据集。 ImageNet 是由斯坦福大学和普林斯顿大学的熟练计算机科学家在2009年赞助和发起的,有80,000张标记图像。它以其年度视觉识别挑战(称为 ILSVRC)而闻名,其中学术和工业领域的不同参与者聚集在 ImageNet 数据上竞争最佳的图像识别算法性能。到2016年,它已经发展到包含超过1400万个标记图像,随时可用于机器学习。由英国各大学赞助的 Pascal VOC拥有更少的图像,但更丰富的图像注释。用于图像识别的性能最好的深度神经网络被称为“卷积神经网络”(以下称为CNN)。与传统的多层神经网络相比,CNN具有一些特殊的性质,使他们能够自动学习相关的特征。从原始的原始图像开始,CNN在图像上应用一组不同的变换或过滤,在每个变换中它学习图像的更紧凑的表示。在训练结束后,CNN 学习了一组更加抽象的特征来表示图像。然后将这些特征用作分类算法的输入,通常是输出层之前的完全连接的ANN,以识别图像。下图描绘了用于人脸识别的深层神经网络和多层。每一层都学习了更密集和更浓缩的输入图像。


[4] 应用

近年来图像识别领域的技术进步为汽车、广告等众多行业带来了巨大的商机。特别是它推动了在线视觉革命。还有传统的使用案例也将从这些改进中受益。在这里列出一些这些应用程序。这个清单并不全面。

4.1 信息组织

由于最近的高准确度成果导致的图像识别的一个显而易见的新应用是基于内容的图像的自动标记以用于索引图像和图像序列的数据库。自动索引会导致更大的一组图像可用于搜索。使用一些描述性词语,可以轻松定位和选择感兴趣的图像(图像搜索)。具有大量视觉数据库的网站,如股票摄影和视频网站,是值得注意的。其中一个有用的变化是“按图像搜索”,其中一个将示例图像提交给应用或在线网站,其中类似的图像被返回以供选择(例如通过谷歌搜索图像)。 随着移动设备和媒体云服务的大量普及,个人照片收藏空前成长。其中一个流行的用例是使用自动标记软件来管理和组织越来越多的个人照片。图像识别技术也用于识别图像中的多个元素,如对象、活动、标识、背景场景等(图5)。这为自动图像字幕提供了一个智能的方法。自动图像字幕本身打开了大量新的业务用例的大门。识别场景中的人脸(人脸识别)是人类可以轻松做到的事情,但是培训计算机做同样的工作却一直是一个挑战。近年来,这个领域已经有了各种各样的突破,人脸识别现在是许多应用(移动和在线)的一部分,例如,在Facebook上基于人脸识别的标签建议。

4.2 工业自动化与检测

三十年来,工业过程已经从一些有限的图像识别形式中获益,并且通常在受控环境中。汽车制造和自动电子组装(用于印刷电路板)是两个显着的例子。一个普遍但受欢迎的应用是工业质量控制,其中使用图像识别来自动检查最终产品或部件产品的缺陷。另一个例子是识别工业机器人在组装过程中拾取物体的位置和方向。光学(数字)分类是另一种流行的应用,其中图像识别已被用于分离不同等级的产品(例如水果),并从生产线上去除异物/缺陷。图像识别在农业中有许多用途,如自动灌溉,病虫害防治,农作物自主选择收获和作物健康。图像识别的最新进展将极大地影响所有的商业用途。

4.3 检测事件

图像识别在视觉监控和安全方面有很多应用。视频图像的高效处理提供了丰富的信息来识别和分类感兴趣的事件。未来,图像识别相机(智能相机)可以取代多种传感器类型。例如,智能摄像机可以代替运动检测的红外线传感器和用于门关闭/打开状态监测的磁性传感器。对于一些重要的物联网(IoT)应用,支持图像识别的摄像头只需要传送从视频中提取的有趣事件并将其传送给中央服务器(或云)。智能摄像机可以在事件前后的预设时间段内提取完整的视频作为证据,而不是连续的视频流。这将有效利用存储和带宽。随着算法效率的提高和处理能力的提高,许多图像识别功能可以嵌入到相机中。 图像识别技术可以用来计算物体,如汽车或图像中的人物。这种能力可以用于交通和人群管理。这样的信息对于检测诸如交通堵塞或特定位置(例如商店)内部/外部的人数的相关事件是很有价值的。 人脸识别有助于安全和监视应用程序识别不良行为者以提供访问权限。另外一个例子,人脸识别在进店时识别忠实有价值的顾客,提醒店员进行特别的服务。

4.4 人机交互

研究人员和软件公司一直对提高人机交互性非常感兴趣。结合近年来的语音识别和NLP突破(Alexa,Cortana,Siri等)(用到RNN),图像识别(特定手势识别,人脸识别和眼睛/头部/手部跟踪)可以重塑我们交流的方式与我们的电脑,设备,汽车和电器。图像识别与虚拟和增强现实的进步相结合,将继续为游戏产业带来革命性的变化。

4.5 对物体和场景建模

图像识别最重要的应用之一将是健康行业的医疗和生物医学图像分析。传统上,癌症和心脏病等疾病的诊断依赖于X射线检查和扫描,发现这些问题的早期预警信号。图像识别不仅可以帮助医生在这些情况下发现问题,而且还可以给予大量不同的例子来训练,有助于医生的诊断。与此相比,Google的图片搜索和Facebook的面部识别可能看起来更简单。在中国这样的一些国家,肺癌每年要夺去几千人的生命,主要是由于空气污染严重。由于缺乏合格的专科医生,医生需要检查更多的扫描信息,造成巨大的负担,导致错误和误诊。基于图像识别的系统已被广泛用于天文学和为外层空间建造的应用,用于分类捕获的天文图像中的恒星和星系。航空摄影是最近军事、天气、研究和商业用途的图像识别技术的又一受益者。

4.6 导航

自主车辆和移动机器人一直是军方极大的兴趣。配备有先进图像识别能力的智能移动机器人具有许多商业(例如服务业)和个人用途。最先进的图像识别最新的应用是协助自动驾驶汽车和汽车驾驶员。自主车辆依靠数十种算法来处理来自各种传感器和相机的数据,以使其周围的导航有意义。图像识别方面的最新进展已经使这一领域发生了革命性的变化,因此在未来的十年内它将成为一种真正的可能。

4.7 营销,销售,客户,经验和广告

非结构化的文字和图像对话不仅简单地改变我们彼此沟通的方式,而且也在改变品牌/供应商与消费者的沟通方式。当从对话中发现有价值的见解并针对合适的顾客时,文本分析只是故事的一半。在文本和其他信息(例如位置)的上下文中理解图像/视频的内容是故事的另一半,并且可以在客户服务和销售/营销中带来巨大的商业价值。 从图像中提取突出的部分,例如品牌的标识,从社交共享图片中提取对于广告和营销也非常重要。人们可以拍摄感兴趣的产品(例如药品,鞋子,电子设备等)的照片,并将其作为图片提交给电子商务网站进行订购或价格检查。图像识别功能可以理解任何标识、产品和产品类别上的印刷文本,理想情况下可以找到确切的产品匹配或至少一个近似匹配。这样就可以订购产品,查看价格,了解更多信息和/或阅读其评论,只需通过移动设备上拍摄的图像以及此人最感兴趣的时刻。

4.8 弱AI与强AI

还有许多其他应用程序直接从图像识别的最新进展中获益,包括可以帮助视障人士简化垃圾运输的系统。随着语音和图像识别以及人工智能总体上取得的重大进展,我们可以构建更智能的软件和机器。但是,它们远离我们所说的人类智能。目前的AI被称为窄AI或弱AI。狭窄的人工智能只是我们迄今为止取得的人工智能的一种形式。根据定义,狭义人工智能擅长执行一项任务,如下棋中的“走子”、推荐购买产品、做出预测(欺诈,销售等),并提供天气预报。图像识别、语音识别、自动驾驶汽车(少数几个狭窄的人工智能的良好结合)、翻译系统和自然语言处理仍然是狭窄的人工智能。语音和图像识别方面的最新进展是狭窄的人工智能,即使它们看起来像突破。人类的AI或强大的AI是模仿人类先进理解和推理的AI类型。强大的AI是一直难以捉摸的。


该书来自于 Rsystems INC. 的 《 Image Recognition: Revolution and Applications 》

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

写给风控新人大数据挖掘基础知识介绍

对企业来,堆积如山的数据无异于一个巨大的宝库。但是如何利用新一代的计算技术和工具来开采数据库中蕴藏的宝藏呢? 在市场需求和技术基础这两个因素都具备的环境下,数据...

34513
来自专栏新智元

微软人工智能首席科学家邓力:深度学习十年简史和人工智能未来展望(33PDF下载)

【新智元导读】微软人工智能首席科学家邓力18日在首届世界人工智能大会 AI WORLD 2016 发表主旨演讲《深度学习十年简史和人工智能未来展望》。邓力博士回...

3647
来自专栏数据派THU

一文总览数据科学全景:定律、算法、问题类型...

作者:Pradeep Menon 翻译:王瑞玺 校对:梁傅淇 本文约3000字,建议阅读时间8分钟。 Pradeep Menon是一位在大数据,数据科学,数据架...

1937
来自专栏AI科技评论

吴博:目标检测集成框架在医学图像 AI 辅助分析中的应用 | AI 研习社第 78 期大讲堂总结

AI 科技评论按:如何界定 AI 用于医学图像分析时的范畴,设置相关的任务及采用合理的模型方法?医学图像分析中目标检测任务的普遍性,使得开发目标检测集成框架显得...

3733
来自专栏人工智能

写给非技术人员的机器学习指南

这里是另一家创业公司的聚会,你靠在吧台上,一边喝着小酒。这样的夜晚你只考虑自己,尽情享受社交活动。 偶然间,一个声音从你耳边传来。 “他们绝对是机器学习的创业公...

2099
来自专栏机器人网

写给非技术人员的机器学习指南

  作者:Kannan Chandrasegaran   这里是另一家创业公司的聚会,你靠在吧台上,一边喝着小酒。这样的夜晚你只考虑自己,尽情享受社交活动。  ...

3638
来自专栏养码场

19岁的谷歌战略AI first,25岁的Java工程师如何转型人工智能?

在今天的Google I/O 主题演讲上,Google CEO 桑德尔·皮蔡并没有发布什么新的产品,而是给大家带来了一家新的公司——公司的战略正在从“Mobil...

1551
来自专栏大数据文摘

怎样找到一份深度学习的工作 | 附学习材料,资源与建议

2184
来自专栏机器之心

机器学习近年来之怪现状

总体来说,机器学习(ML)的研究人员正在致力于数据驱动算法知识的创建与传播。在一篇论文中提到,研究人员迫切地想实现下列目标的任一个:理论性阐述可学习内容、深入理...

952
来自专栏机器之心

中科视拓获数千万pre-A轮融资,机器之心专访山世光

3096

扫码关注云+社区

领取腾讯云代金券