图像识别的工作原理是什么？商业上如何使用它？

陈哈哈

发布于 2020-07-06 10:27:38

1.5K0

发布于 2020-07-06 10:27:38

文章被收录于专栏：MySQL入坑记

图像识别市场估计将从2016年的159.5亿美元增长到2021年的389.2亿美元，在2016年至2021年之间的复合年增长率为19.5％。机器学习和高带宽数据服务的使用进步推动了这项技术的发展。。电子商务，汽车，医疗保健和游戏等不同领域的公司正在迅速采用图像识别。根据MarketsandMarkets的报告，图像识别市场分为硬件，软件和服务。以智能手机和扫描仪为主的硬件部分可以在图像识别市场的增长中发挥巨大作用。越来越需要具有创新技术（例如监控摄像头和面部识别）的安全应用程序和产品。

图像识别是指识别图像中的位置，徽标，人物，物体，建筑物以及其他几个变量的技术。用户正在通过应用程序，社交网络和网站共享大量数据。此外，配备摄像头的移动电话正在导致创建无限的数字图像和视频。公司正在使用大量的数字数据向访问它的人们提供更好，更智能的服务。

图像识别是计算机视觉的一部分，也是识别和检测数字视频或图像中的对象或属性的过程。计算机视觉是一个广义的术语，包括收集，处理和分析来自现实世界的数据的方法。数据是高维数据，并以决策形式产生数字或符号信息。除了图像识别，计算机视觉还包括事件检测，对象识别，学习，图像重建和视频跟踪。

图像识别技术实际上是如何工作的？

Facebook现在可以以98％的准确度执行人脸识别，这与人类的能力不相上下。Facebook只能通过几张带标签的图片来识别您朋友的脸。该技术的功效取决于对图像进行分类的能力。分类是与数据进行模式匹配。图像是二维矩阵形式的数据。实际上，图像识别将数据归为一类。一个常见且重要的示例是光学字符识别（OCR）。OCR将键入或手写的文本的图像转换为机器编码的文本。

图像识别过程的主要步骤是收集和组织数据，建立预测模型并使用它来识别图像。

收集和整理数据

人眼将图像感知为一组信号，这些信号由大脑中的视觉皮层处理。这样可以带来生动的场景体验，并与一个人的记忆中记录的概念和对象相关联。图像识别试图模仿这个过程。计算机将图像视为光栅图像或矢量图像。栅格图像是一系列像素，这些像素具有离散的颜色数值，而矢量图像是一组带有颜色注释的多边形。

为了分析图像，将几何编码转换为描述物理特征和对象的构造。然后可以由计算机对这些构造进行逻辑分析。组织数据涉及分类和特征提取。图像分类的第一步是通过提取重要信息并忽略其余信息来简化图像。例如，在下面的图像中，如果要从背景提取猫，您会注意到RGB像素值有很大的变化。

但是，通过在图像上运行边缘检测器，我们可以简化它。您仍然可以轻松地在这些边缘图像中辨别脸部和眼睛的圆形形状，因此我们可以得出结论，边缘检测在保留不必要的信息的同时保留了必要的信息。一些著名的特征描述符技术是Viola和Jones引入的类似Haar的特征，定向梯度直方图（HOG），尺度不变特征变换（SIFT），加速鲁棒特征（SURF）等。

建立预测模型

在上一步中，我们学习了如何将图像转换为特征向量。在本节中，我们将学习分类算法如何将此特征向量作为输入并输出类标签（例如，猫或背景/无猫）。在分类算法发挥作用之前，我们需要通过显示成千上万的猫和非猫图像来训练它。机器学习算法的一般原理是将特征向量视为高维空间中的点。然后，它尝试查找将高维空间分隔开的平面或曲面（轮廓），以使特定类的所有示例都位于平面或曲面的一侧。

为了建立预测模型，我们需要神经网络。神经网络是一个类似于我们大脑的硬件和软件系统，用于估计依赖于大量未知输入的函数。根据Google Cloud Platform的开发人员倡导者Kaz Sato的说法，“ 神经网络是一种功能，可以从训练数据集中学习给定输入的预期输出”。神经网络是一组互连的节点。每个处理节点都有自己的一小部分知识范围，包括其所见所闻以及它最初为自己编写或开发的规则。神经网络将需要一种学习算法。用于识别图像的图像分类算法很多，例如词袋，支持向量机（SVM），人脸界标估计（用于人脸识别），K近邻（KNN），逻辑回归等。

识别图像

尽管以上两个步骤占用了大部分精力，但是识别图像的这一步骤非常容易。图像数据，包括训练和测试，都经过组织。训练数据与测试数据不同，这也意味着我们删除了它们之间的重复项（或几乎重复项）。该数据被输入到模型中以识别图像。我们必须在已知图像数据库中找到猫的图像，该图像的测量值与测试图像最接近。我们需要做的就是训练一个分类器，该分类器可以从新的测试图像中进行测量，并告诉我们与猫最接近的匹配项。运行此分类器需要毫秒。分类器的结果是“猫”或“非猫”。

建立图像识别模型的主要挑战是硬件处理能力和输入数据的清理。大多数图像可能都是高清晰度的。如果要处理尺寸大于500像素的大图像，则每个图像将变为250,000像素（500 X 500）。对于机器学习模型而言，仅1000张图像的训练数据就将达到2.5亿美元的价值。此外，计算不是简单的加法或乘法，而是涉及浮点权重和矩阵的复杂导数。

有一些快速的技巧可以克服上述挑战： –图像压缩工具可在不损失清晰度的情况下减小图像尺寸 –使用彩色图像的灰度和渐变版本 –图形处理器单元（GPU）–训练包含更少数据的神经网络时间和较少的计算基础架构。

如何在您的业务中使用图像识别？

从业务角度来看，图像识别的主要应用是面部识别，安全性和监视，视觉地理定位，对象识别，手势识别，代码识别，工业自动化，医疗中的图像分析和驾驶员辅助。这些应用正在许多领域创造增长机会。让我们看看图像识别如何在某些业务领域引发一场革命-

电子商务行业

该技术的采用水平在包括搜索和广告在内的电子商务中是最高的。图像识别可以将您的智能手机转变为虚拟陈列室。它在移动应用程序中用于标识特定产品。通过使他们看到的所有内容都可搜索，从而呈现出更加互动的世界观。

图像识别的一个突出示例是Image Searcher Inc.的CamFind API。该技术可实现更高水平的移动商务。CamFind识别手表，鞋子，箱包和太阳镜等物品，并将购买选项返回给用户。潜在买家无需访问任何网站即可进行实时产品比较。开发人员可以使用此图像识别API来构建自己的移动商务应用程序。同样，ViSenze是一家人工智能公司，通过深度学习和图像识别解决现实世界中的搜索问题。在线购物者，互联网零售商和媒体所有者都使用ViSenze 生产的产品来使用产品推荐和广告定位。

游戏产业

图像识别和计算机视觉技术将彻底改变游戏世界。实际上，这场革命已经开始。Microsoft Kinect电子游戏拥有吉尼斯世界纪录，是有史以来销售最快的消费电子设备。该游戏基于计算机视觉，并实时跟踪人体。认真的游戏玩家更倾向于在现实世界中远离设备的角色。图像识别是生成此类新用户体验和用户界面的关键。将结合了地理位置定位和应用内购买的图像技术相结合，基于搜索的商业或广告开始向现实世界过渡，为AdWords规模巨大的设备外商机打开了大门。

汽车行业

图像识别和处理是Google和Uber率先开发的自动驾驶汽车的重要组成部分。未来的汽车有望发现障碍物并警告您靠近护栏和人行道的情况。该技术甚至能够读取路标和停车灯。由深度学习驱动的计算机视觉系统使用数千张图像进行训练。将不同天气条件下的路标，人，道路等图像输入神经网络。随着更多的培训数据输入系统，系统变得智能。

您是否认为上述示例针对大型行业，可能不适用于您的业务？相反，图像识别可以用较小的方法来获得好处。图像识别技术主要用于吸引观众并推动社交共享。例如，它可以用于优化移动广告。使用图像识别，营销人员可以以较少干扰性和针对性的广告来提供高度可见的广告活动。

MARUTI TECHLABS如何为客户使用图像识别？

希望首次采用此技术的组织应从特定的业务部门开始。这些细分市场应具有强大的业务规则来指导算法，并具有大量数据来训练机器。我们已经为汽车行业的客户集成了图像识别解决方案。客户有一个买卖汽车的电子商务平台。卖方上传了汽车的图像以验证车辆的当前状态。欺诈卖家上载了令人反感或不相关的内容，以欺骗系统并获取汽车报价。为了减少此类欺诈案件，组织必须专门安排一些人手动检查图像。

我们设计了一种使用Google Vision技术的解决方案，以淘汰不相关的（非汽车）图像。Vision使用Google图像搜索功能的强大功能来检测露骨内容，面部特征，将图像标记为类别，提取文本等。我们已使用Vision的安全搜索注释功能每天处理超过1000张卖方图像。还可以基于诸如成人，暴力，欺骗和医疗之类的内容来标记图像。随着新数据和概念的引入，Google Vision会随着时间的推移而不断改进。随着我们收集更多数据（图像），我们将使用上述技术实现定制的图像识别解决方案。

每个公司都很难在这项技术上进行投资，并随后建立一支计算机视觉工程团队。即使拥有合适的团队，要产生结果也可能需要大量工作。在这里，我们的数据科学专家可以帮助您定义结合图像识别和相关机器学习技术的路线图。我们通常将图像识别与现有应用程序集成在一起，或者使用它来为您的业务构建特定功能，这通常是在云端进行管理的。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/01/09 ，如有侵权请联系 cloudcommunity@tencent.com 删除

图像处理