计算机视觉应用：深度学习的力量和局限性

AiTechYun

发布于 2020-02-12 12:22:57

6980

发布于 2020-02-12 12:22:57

文章被收录于专栏：ATYUN订阅号

自从人工智能诞生之初，计算机科学家就梦想着创造出能够像我们一样看到和理解世界的机器。这些努力导致了计算机视觉的出现，计算机视觉是AI和计算机科学的广阔领域，致力于处理视觉数据的内容。

近年来，由于深度学习和人工神经网络的进步，计算机视觉取得了长足的进步。深度学习是AI的一个分支，特别擅长处理图像和视频等非结构化数据。

这些进步为在现有领域中促进计算机视觉的使用以及将其引入新领域铺平了道路。在许多情况下，计算机视觉算法已成为我们每天使用的应用程序中非常重要的组成部分。

计算机视觉的商业应用

其实你每天都在使用计算机视觉应用程序，在某些情况下可能没有注意到它。以下是使生活变得有趣和便捷的计算机视觉的一些实用和流行的应用程序。

图片搜寻

计算机视觉已取得巨大进展的领域之一是图像分类和物体检测。经过足够标签数据训练的神经网络将能够以惊人的精度检测并突出显示各种物体。

很少有公司能够与Google庞大的用户数据存储相匹配。他们一直在使用其几乎无限（并且正在不断增长）的用户数据存储库来开发一些最高效的AI模型。当您在Google相册中上传照片时，它会使用其计算机视觉算法对场景，物体和人物的内容信息进行注释。然后，您可以根据此信息搜索图像。

例如，如果您搜索“ dog”，则Google会自动返回您库中包含狗的所有图像。

图像编辑和增强

现在，许多公司正在使用机器学习来自动增强照片。Google的Pixel手机系列使用设备上的神经网络进行自动增强，例如白平衡、添加效果与模糊背景。

智能缩放是计算机视觉技术的一大进步。传统的缩放功能通常会使图像模糊，因为它们通过在像素之间进行插值来填充放大的区域。基于计算机视觉的缩放不是放大像素，而是着重于边缘，图案等特征。这种方法可以使图像更清晰。

许多初创公司和历史悠久的图形公司已转向深度学习来增强图像和视频。Lightroom CC中的Adobe 增强细节技术使用机器学习来创建更清晰的缩放图像。

图像编辑工具Pixelmator Pro具有ML超分辨率功能，该功能使用卷积神经网络提供清晰的缩放和增强效果。

面部识别应用

几年前面部识别技术还是一项笨拙且昂贵的技术，仅限于警察研究实验室。但是近年来，由于计算机视觉算法的进步，面部识别已进入各种计算设备。

iPhone X引入了FaceID，这是一种身份验证系统，该系统使用设备上的神经网络在看到拥有者的脸部时将手机解锁。在设置过程中，FaceID在所有者的脸上训练其AI模型，并在不同的光照条件、发型、帽子和眼镜下正常工作。

在国内刷脸支付已经普及。客户无需使用信用卡或移动支付应用程序，而只需要站在配备有计算机视觉的设备前即可。

尽管取得了进步，但是，当前的面部识别并不完美。AI和安全研究人员发现了多种导致面部识别系统出错的方法。在一个案例中，卡内基梅隆大学的研究人员表明，戴上特制眼镜，他们可能会欺骗面部识别系统，以将其误认为名人。

数据高效的家庭安全

随着物联网（IoT）的发展，连接互联网的家庭安全摄像头已越来越受欢迎。现在，您可以随时轻松地安装安全摄像头并在线监控您的房子。

每个摄像头都会向云端发送大量数据。但是，安全摄像头记录的大多数镜头都是不相关的，从而导致网络，存储和电力资源的大量浪费。计算机视觉算法可以使家庭安全摄像机在使用这些资源时变得更加高效。

而智能摄像头将保持空闲状态，直到它们检测到视频中的物体或移动，之后它们才能开始将数据发送到云或将警报发送给相机的所有者。但是请注意，计算机视觉仍然不能很好地理解上下文。因此，不要指望它能在良性运动（例如，球在房间内滚动）和需要注意的事物（例如，小偷闯入您的房屋）之间区分开来。

与现实世界互动

在过去的几年中，增强现实（将现实世界的视频和图像与虚拟对象重叠的技术）已成为一个新兴的市场。AR的大部分扩展归功于计算机视觉算法的发展。AR应用程序使用机器学习来检测和跟踪目标位置和放置虚拟对象的对象。您可以在许多应用程序中看到AR和计算机视觉的结合，例如Snapchat过滤器和Warby Parker的Virtual Try-On。