全面深度解析：计算机视觉的含义、主要研究方向及发展史

文章来源：企鹅号 - 車界大亨

人工智能将成为产业变革的方向已经是一个不争的事实，人工智能处于第四次科技革命的核心地位，也是一个全世界公认的结论。全球正在掀起一场以人工智能为核心的科技竞赛，而作为人工智能关键技术之一的：计算机视觉，也引起广泛关注。

那么，计算机视觉到底是什么？它的发展史到底是怎样的？

今天，我们将尽量以简短、直接的文字解答这两个核心问题。

什么是计算机视觉？

提到这个问题，你的第一直觉可能是：计算机的视觉不就是计算机的眼睛吗？这么说其实也算说对了一部分。顾名思义，计算机视觉是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。更直接地说，计算机视觉就是让摄像机、电脑这些科技设备成为计算机的“眼睛”，让其可以拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。

总之，计算机视觉系统是创建了一套完整的人工智能系统，可以让计算机看见并理解这个世界的“信息”。

计算机视觉的主要研究方向有哪些？

计算机视觉的研究内容，大体可以分为物体视觉和空间视觉两大部分。物体视觉是对于物体进行精细分类和鉴别，空间视觉则在于确定物体的位置和形状，为“动作”服务。

目前计算机视觉主要基础和热门的研究方向有：物体识别和检测、语义分割、运动和跟踪、视觉问答。

物体识别和检测物体检测是计算机视觉中非常基础且重要的研究方向。其含义主要是，给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。因此，衍生了人脸检测、车辆检测等细分检测算法。

语义分割语义分割是近年来的热门研究方向，也是从字面上容易被误解的技术。其实，语义分割和语音识别一毛钱关系也没有，其真正的的含义是将输入图像的每一个像素点进行归类，用一张图可以清晰地描述出来其内层意义。

可以说，物体检测通常是将物体在原图上框出，而语义分割则是从原图上的每一个像素点进行归类，图片上的每一个像素都有自己的“标签”（类别）。

运动和跟踪跟踪也是计算机视觉的基础问题之一，其研发方法已经由原来的非深度算法跨越向了深度学习算法。目前学术界对于跟踪的评判标注主要是在一段给定的视频中，在第一帧给出被跟踪物体的位置及尺度大小，在后续的视频当中，跟踪算法需要从视频中寻找被跟踪物体的位置，并适应视频中光照变化、运动模糊及表观的变化等。

而实际上，跟踪是一个不适定问题，比如跟踪一辆车，如果从车尾开始跟踪，如果车辆在行进过程中外观发生很大变化，如旋转180度，现在的跟踪算法可能会出现“跟丢”的情况。所以，这一研究领域还有极大提升空间，也不属于非常热门的方向。

视觉问答视觉问题的研究目的是根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除此之外，还有一种标题生成算法，即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于此类跨越两种数据形态（如文本和图像）的算法，也可称之为多模态或跨模态问题。

计算机视觉发展史

1982年，马尔（DavidMarr）《视觉》一书的问世，标志着计算机视觉成为了一门独立学科。

计算机视觉在40多年发展中，主要经历了三大历程：马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

马尔计算视觉马尔计算视觉分为三个层次，计算理论、表达和算法以及算法实现。马尔认为算法实现并不影响算法的功能和效果，所以马尔计算视觉主要讨论“计算理论”和“表达与算法”两部分内容。

马尔认为，大脑的神经计算和计算机的数值计算没有本质区别，所以，马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看，“神经计算”与数值计算在有些情况下会产生本质区别，如神经形态计算，总体上，数值计算可以模拟神经计算。

多视几何与分层三维重建该方面的工作主要集中在如何提高“大数据下鲁棒性重建的计算效率”。

大数据需要全自动重建，而全自动重建需要反复优化，反复优化又需要花费大量计算资源。所以，如何保证鲁棒性的前提下快速进行大场景的三维重建是后期研究的重点。

直接点说，研究重点是如何快速、鲁棒地重建大场景。

基于学习的视觉主要是指以机器学习为主要技术手段的计算机视觉研究。主要分为以流形学习为代表的子空间法和以深度学习为代表的视觉方法。

物体表达是物体识别的核心问题，给定图像物体，如人脸图像，不同的表达，物体的分类和识别率不同，另外，直接将图像像素作为表达是一种“过表达”，也不是好的表达。

流形学习理论认为，一种图像物体存在其“内在流形”，而这是该物体的优质表达。所以，流形学习就是从图像表达学习期内在流形表达的过程，而这种学习过程一般是非线性优化过程。

深度学习的成功则主要得益于数据积累和计算能力的提高。

目前，人们都在利用深度学习来“取代”计算机视觉中的传统方法。

注：以上专业内容来自于清华大学的人工智能报告。

想了解更多精彩内容，快来关注我AI人工智能

发表于: 2019-12-112019-12-11 16:59:08
原文链接：https://kuaibao.qq.com/s/20191211A0JSE600?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

全面深度解析：计算机视觉的含义、主要研究方向及发展史

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐