专栏首页决策智能与机器学习计算机视觉和AI | CV小结 | 附资源分享 | 解读技术

计算机视觉和AI | CV小结 | 附资源分享 | 解读技术

|懒人阅读:计算机视觉的应用无处不在,就像视觉是我们感知世界的最主要方式之一,所以其应用场景和公司也数不胜数。机器学习、深度学习等技术使用到CV之中后,为很多复杂视觉信号的处理带来了可能,从而可以进行更加精准的目标识别、目标跟踪、场景重建等应用。

|如果想要机器能够进行思考,我们需要先教会它们去看。

李飞飞——Director of Stanford AI Lab and Stanford Vision Lab


|CV定义(参考)和机器学习技术的使用

机器学习、深度学习等技术使用到CV之中后,为很多复杂视觉信号的处理带来了可能,例如传统的采集、预处理、特征提取、目标识别等过程可以通过一个CNN或GAN网络结构实现,从而可以进行更加精准的目标识别、目标跟踪、场景重建等应用,也有很多功能、产品和公司出现。

计算机视觉(CV,computer vision)狭义上说是使用计算机及相关设备对生物视觉的一种模拟,可简单理解为替代“眼睛”。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。

广义上说是通过二维三维图像、视频等图像信息的感知,进而开展决策的一种科学。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

  • 可能的理解误区

不意味着计算机必须按人类视觉的方法完成视觉信息的处理。

个人认为不必严格界定机器视觉、计算机视觉和模式识别等方向的区别,重点在于对实际问题的解决,下图是维基百科上的一种划分方式,供参考。


|主要技术架构

  • 感知:采集视觉信号,感知器可以是各种光敏摄像机,包括遥感设备,X射线断层摄影仪,雷达,超声波接收器等。
  • 处理:现在的机器学习很多算法已经可以将整个处理过程在一个网络结构中完成。主要涉及环节有去噪、取样等,减少目标干扰。提取目标特征。检测分割:分割一或多幅图片中含有特定目标的部分。
  • 应用

识别评估:人脸识别、姿态识别、字符识别等

目标跟踪:运动信号监测、图像跟踪等;

场景重建:给定一个场景的二或多幅图像或者一段录像,场景重建寻求为该场景建立一个计算机模型/三维模型等。


|公司、产品及应用场景(部分)

谷歌,微软,Facebook、亚马逊、苹果、英特尔、华为、BAT等无一没有建立自己的AI实验室,AI里面,计算机视觉或图像处理是非常重要的一块。

世界各大汽车公司,如特斯拉、通用、宝马等,在推动无人驾驶技术之中,视觉导航是核心关键技术之一。

同样道理,无人机公司(大疆)、机器人公司(地平线)、摄像头公司(海康威视、旷视科技、商汤科技)、图像处理软件公司(Adobe、美图),甚至是迪士尼等电影动画制作公司都在CV方面大量投入资源开展应用。

可以看出计算机视觉的应用无处不在,很好理解,图像无处不在是我们感知世界的最主要方式之一,所以其应用场景和公司数不胜数,挂一漏万,盘点如下:

  • 无人驾驶的视觉导航:还没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统,如避障、路径规划等。相关公司及产品有:
  • 工业机器人,也被称为机器视觉,指的是自主机器人的视觉,用于检测和测量的视觉。相关公司及产品有:速感科技(让机器人认识世界,用机器人改变世界),是一家以机器视觉为核心的人工智能创业公司,目标是成为机器人行业领先的视觉解决方案提供商,产品线包括:三维视觉传感器、机器人移动开发底盘、AGV导航定位模块、智能跟随机器人。
  • 视频监控(安防、金融安全):小区门禁、身份识别(金融、安防)、社会场所安全监视及目标识别跟踪,包括摄像头跟踪(运动匹配)、监视、人脸识别等。相关公司及产品有:海康威视;旷视科技,Face++专注于人脸识别技术和相关产品应用研究,面向开发者提供服务。拥有一套非常强大的人脸检测系统;商汤科技,早期专注于安防领域,现在扩展到互联网+。格灵深瞳深耕安防和商业数据分析领域,自主研发的深瞳技术在人和车的检测、跟踪与识别方面居于世界领先水平,产品线包括人眼摄像机、行为分析仪、车辆特征识别系统、视图大数据分析平台。
  • 医疗计算机视觉和医学图像处理:从显微镜图像,X射线图像,血管造影图像,超声图像和断层图像等之中检测肿瘤,动脉粥样硬化或其他恶性变化。还可以作为医学测量的新手段,如脑结构,评估医学治疗质量、超声图像、X射线图像,降低噪声的影响的图像等。
  • 工业制造中的质量控制与测量:食物的光学分拣、缺陷自动检测、机器人臂的位置和细节取向测量。
  • 军事应用:有关作战的场景的丰富感知,如探测敌方士兵或车辆和导弹制导、雷达图像分析等。

这里推荐一篇文章,计算机视觉与深度学习公司,对于公司盘点的比较全面,传送门:http://blog.csdn.net/hduxiejun/article/details/53725836


|技术沿革、当前发展、热点方向

技术沿革:计算机视觉领域的突出特点是其多样性与不完善性,直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。涉及的主要技术领域:物理(电磁波:主要是可见光与红外线部分)、生物视觉系统(视觉的生物机制)、信号处理(尤其是时变信号处理)和数学(统计学,最优化理论以及几何学)。

当前发展:计算机视觉的经典问题进入了传统方法的瓶颈期,在不使用神经网络等算法时可能存在很多困难,如果把Deep Learning进入CV的2012年作为新时代的开始,很多神经网络对于各种视觉场景识别问题的解决都实现了很好的效果。

热点方向:当前发展毋庸置疑是AI技术,尤其是机器学习、深度学习在CV中的应用,赋予了这个方向新的生命。引用知乎答主周博磊的话:计算机视觉在人工智能和深度学习的大背景下方兴未艾。现在的CV和AI研究其实是变得越来越扁平快,论文数量和研究方向也是繁多. 已经很难follow。目前在技术上有一些可能的热点:

  • 机器人视觉
  • 基于GAN的生成视觉模型方向
  • 多媒体计算机视觉,也叫多模态视觉

会议及期刊

  • 顶级会议

ICCV:International Conference on Computer Vision,国际计算机视觉大会

CVPR:International Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别大会

ECCV:European Conference on Computer Vision,欧洲计算机视觉大会

  • 较好会议

ICIP:International Conference on Image Processing,国际图像处理大会

BMVC:British Machine Vision Conference,英国机器视觉大会

ICPR:International Conference on Pattern Recognition,国际模式识别大会

ACCV:Asian Conference on Computer Vision,亚洲计算机视觉大会

  • 顶级期刊

PAMI:IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE 模式分析与机器智能杂志

IJCV:International Journal on Computer Vision,国际计算机视觉杂志

  • 较好期刊

TIP:IEEE Transactions on Image Processing,IEEE图像处理杂志

CVIU:Computer Vision and Image Understanding,计算机视觉与图像理解

PR:Pattern Recognition,模式识别

PRL:Pattern Recognition Letters,模式识别快报


|授人以渔,资料分享

  • 卷积神经网络在计算机视觉中的应用( Computer Vision: the use of CovNets),在此推荐斯坦福的CS231n课程:针对视觉识别的卷积神经网络。
  • MIT周博磊博士:http://people.csail.mit.edu/bzhou/ 聚集分析、运动检测
  • 初探计算机视觉的三个源头、兼谈人工智能|正本清源:http://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=100000002&idx=2&sn=32face7f1acb17e07f3c38dde41d880e;计算机视觉领军人物之一加州大学洛杉矶分校UCLA统计学和计算机科学教授Song-Chun Zhu的访谈录
  • 杜克大学的Guillermo Sapiro所教授的课程——《图像和视频处理:从火星到好莱坞Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital》,可以在coursera和YouTube上找到相关的课程视频信息。
  • Gonzalez与Woods编写的《数字图像处理(Digital Image Processing)》一书,使用MATLAB来运行其中所提到的范例。
  • 佛罗里达大学的Mubarak Shah教授在计算机视觉方面的课程可以作为一门很好的入门课程
  • 黎中央理工学院的Nikos Paragios和Pawan Kumar讲授了一门人工视觉中的离散推理(Discrete Inference in Artificial Vision)课程,它能提供相关的概率图形模型和计算机视觉相关的大量数学知识。
  • 《使用Python对计算机视觉进行编程/Programming Computer Vision with Python》

|参考资料

百度百科,计算机视觉:https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/2803351?fr=aladdin

雷锋网,七步带你认识计算机视觉:https://www.leiphone.com/news/201608/UaRVIbntJCdv4G9K.html

计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接:http://blog.csdn.net/carson2005/article/details/6601109

知乎神帖,中国计算机视觉的前途在哪?机器视觉工程师又何去何从?:https://www.zhihu.com/question/20451261

知乎神帖:机器视觉与计算机视觉的区别?:https://www.zhihu.com/question/23183532

本文分享自微信公众号 - 决策智能与机器学习(AIfreak),作者:九三山人

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Tensorflow:谷歌的一种深度学习框架/丹炉 | 炼丹术 | 干货分享 | 解读技术

    懒人阅读:想要傻瓜式体验深度学习的请先绕开TF,可以考虑pytorch、keras。想要真正从事可部署产品研发的童鞋,TF可能是一个绕不开的存在。

    用户7623498
  • 机器视觉简析/视觉不稳定因素分析 | CV | 终端智能

    典型的机器视觉系统一般由图像的获取、图像的处理和分析、输出或显示三部分组成。按照视觉系统组成结构主要分为两大类:PC或板卡式机器视觉系统(PC-...

    用户7623498
  • learning札记| 2nd | 以任务为目的的智能体构建 | 纠正智能技术的娱乐化倾向 | 朱松纯大师说AI

    朱教授这篇正本清源的综述性文章,建立在大师深厚的数学功底和长期从事机器视觉、机器人等领域研究基础上,将人工智能领域面临的本质问题进行了深入剖析:...

    用户7623498
  • 什么是计算机视觉?什么是机器视觉?

    每天,我们睁开眼都会看见这个多彩的世界,五彩斑斓的花朵、湛蓝的天空、还有亲人熟悉的笑容,对于每一个健康人一出生便享有上天赐予的美好特权,我们可以通过眼镜感知这个...

    用户4524627
  • 一个狠招|如何高效学习3D视觉

    有的读者可能对于计算机视觉中2D和3D视觉的区别仍然较为模糊,此处根据某篇论文中的解释,介绍如下:

    OpenCV学堂
  • 计算机和人类“看”法不同,但这重要么?

    当工程师第一次“教”计算机“看”这个动作时,他们理所当然地认为计算机可以像人类眼睛一样进行观看。

    大数据文摘
  • 计算机视觉(及卷积神经网络)简史

    尽管计算机视觉近期突然兴起(重大突破时刻发生在2012年,那时AlexNet网络赢得ImageNet的冠军),它确实不是以一个新的科学领域。

    AI研习社
  • 多模态机器翻译的视觉一致常规训练 (CS CompLang)

    原文题目: Visual Agreement Regularized Training for Multi-Modal Machine Translation

    shellmik
  • 张正友博士:计算机视觉的三生三世

    犀牛鸟中学创新科研营作为犀牛鸟中学科学人才培养计划的重要环节于近期开营,开营仪式邀请了哈佛大学、清华大学丘成桐教授、腾讯AI Lab及腾讯Robotics X...

    腾讯高校合作
  • 基于深度学习的人脑视觉神经信息编解码研究进展及挑战【附PPT】

    现实世界中,外部视觉刺激是多种多样、杂乱无章的,而人类的视觉系统,从视网膜到高级视觉皮层的各个认知阶段,却能以某种方式稳定地识别和理解这些视觉输入数据。人脑在复...

    马上科普尚尚

扫码关注云+社区

领取腾讯云代金券