【专栏】图像分析那些事︱AI来了

腾讯云高级研究员讲述,从成像到图像分析如何入门

文︱冀永楠

“AI来了”邀请到我们腾讯云的高级研究员冀永楠讲述图像分析的那些事儿。

从2012年开始,深度学习席卷了图像识别领域,在图像分类、目标检测、语义分割等领域秒杀了传统的方法。之前也有人写过如何20分钟内得到猫狗分类大赛第二名的卷积神经网络。尽管识别和检测问题是图像分析中难度最高的一部分,在实际应用中,图像问题都是多个问题的组合,而并非单一的识别或者检测问题。

冀永楠表示,本文是简单介绍一下成像和图像分析的基本内容,希望对有兴趣解决图像类问题的同学有所帮助。

作者简介:

冀永楠,诺丁汉大学计算机系博士,欧盟Marie Curie Research Fellow。现为腾讯云大数据AI产品中心高级研究员。

成像方式

理解图像是如何产生的是解决图像类问题的第一步。最常见的成像方式是单反相机——手机相机等相机的成像方式。下图选自参考文献1,直观的展示了这种成像的原理。现实生活中遇到的成像方式绝大多是属于这类成像

除此之外,还有如下图中的X-ray,红外,显微,遥感,结构光等多种成像方式。在处理和分析这些图像的时候,理解图像的成像方式和其中的内容表达方式对最后的处理效果会起到关键的基础性作用。

以医用CT图像为例,CT图像的像素值代表着位于改像素位置的物质对X光的衰减程度。骨头,金属等可以造成较大衰减的,会呈现高像素值。空气几乎不会造成衰减的,会呈现低像素值。CT像素值有很大的动态范围。普通图像像素值一般是0~255。CT的像素值则是-1024~1024。检查不同部位和不同疾病的时候,关注的像素值范围有所不同。例如,在AI医疗的肺结节检测应用场景中,主要关注-1000~200的区域。

图像处理

图像处理问题可以大致的分为低、中、高三个层次。低层处理主要是图像的增强、降低噪声、边缘等特征的提取、基本的压缩等。中层的图像处理方法一般解决的是图像的分类,物体的检测、定位、分割以及图像的语义分割等。高层的处理是比较复杂的综合应该用。比如图像的自动注释,人脸和人脸姿态的识别,自动驾驶等等。

高级的图像处理问题需要分解为多个中低级的问题。一些端到端的深度网络,也会将一个网络分成几个子网络,利用辅助输入输出进行训练。其实本质也是将复杂的高层问题分解为中级和低级的子问题来解决。比如常见的通过人脸比对进行身份验证,一般都包括了人脸检测定位,人脸关键点定位,特征计算和比对的过程。优图的OCR文字识别,也是由背景识别等三大引擎(定位引擎、字段识别引擎)支撑的。

传统的图像分析算法中,各种滤波器的设计占有很大的一部分比例。理解滤波器的原理和使用的场景是做图像分析工作中很大的一块,也是比较痛苦的一块。因为滤波器的种类繁多,原理不一。对于场景的适用性需要经验来判断。比较成功的计算特征的方法有,边缘特征,Scale-invariant feature transform(SIFT),Histogram of Gradient (HOG)等

在特征计算之上,会设计出和问题相关的模型来描述和解决各种中层的图像问题。比如,对于人体检测和定位,Deformable Parts Model(DPM)在深度网络普及之前是效果非常好的一种模型。这种模型在HOG的特征上,将一个整体目标分成几个小目标进行初级识别,之后综合判断小目标之间的关系来定位整体目标的方法。

传统方法对于分割的问题基于两点,一是分割的边界一般处于图像梯度特征较大的地方;二是分割出来的区域的形状一般都是比较规则的。Active Shape, level set 都是类似的方法。更为复杂一些的,可以预设分割出来的物体大概的样子。这种预设称为A Priori Information。

深度学习

卷积神经网络的崛起可以说秒杀了很多传统方法。在分割,分类,检测等等几乎所有的中层问题上,深度学习算法在性能上都超出了传统方法。尽管卷积神经网络(CNN)本质上可以认为是局部的滤波器,但是好在至少数据充足,不需要对滤波器进行过多的设计。深度学习框架可以很大程度上自动优化好最后结果。不同的问题采用不同的网络结构。比如分割问题一般采用反卷积(FCN)网络。目标检测问题采用Faster RCNN网络。

深度网络进化朝着准确度越来越高,应用越来越广的方向发展。一些原有的图像分析的业界测量标准,例如ImageNet图像分类,已经变得易如反掌而退出了舞台。人脸识别也从小数据库,简单场景向千万,甚至亿级数据库,全场景覆盖发展。

应用多多

腾讯云图像识别能力已经在图像多标签分类、敏感图片审核(色情/暴恐/政治人物等)、医学影像识别、人/车/物结构化识别及文字识别(OCR)等细分化场景中进行应用,并在多个领域实现了落地。敏感图片审核技术对色情、暴恐等的识别准确率高达99%,成为网络环境的净化器。在医学领域,腾讯已与超过100家医院签署战略合作,已应用到肺癌早筛、食管癌早筛等项目中,显著提升看病水平和效率。OCR文字识别系统也广泛应用在金融,酒店,快运等等单据和身份证的识别中,取得了良好的实用效果。

Tips:图像技术入门资料

1 Rafael C. Gonzalez and Richard E. Woods. 2006. Digital Image Processing (3rd Edition). Prentice-Hall, Inc., Upper Saddle River, NJ, USA.

这本书是图像处理的数目的经典之作。对于希望理解成像和图像分析基本原理以及方法的同学,是必修之作。

CS231n: Convolutional Neural Networks for Visual Recognition

Li Feifei 开设的课程。课程主页,Youtube, Github上有丰富的资料。对于理解CNN在图像上的应用和演变是最为有效的方法。课后作业也不要错过。

这个不用多说了吧。谁没Clone过几个开源项目

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战

AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度...

16960
来自专栏新智元

8张图看苹果公开的第一篇 AI 论文

【新智元导读】 苹果终于发表了AI方面的第一篇论文。12月22日,苹果题为《Learning from Simulated and Unsupervised I...

43760
来自专栏IT派

统计vs机器学习,数据领域的“少林和武当”!

虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。注重模型预测效果的人工智能派认为统计学派“固步自封”,研究和使用的模型都只是一些线性模型,太过简单...

10210
来自专栏新智元

【普华永道全息图解】机器学习演化史,方法、应用场景与发展趋势

【新智元导读】普华永道最近推出了一系列机器学习信息图示,很好地将机器学习的发展历史、关键方法以及未来会如何影响社会生活展现了出来。基础概念部分包括机器学习各大学...

40790
来自专栏人工智能头条

何恺明等在图像识别任务上取得重大进展,这次用的是弱监督学习

23540
来自专栏数据科学与人工智能

【机器学习】开发者成功使用机器学习的十大诀窍

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取...

27180
来自专栏大数据文摘

大咖 | GAN之父Ian Goodfellow在Quora:机器学习十问十答

16940
来自专栏专知

图深度学习(GraphDL),下一个人工智能算法热点?一文了解最新GDL相关文章

【导读】最近,DeepMind、Google大脑、MIT等各大研究机构相继发表了一系列的关于图深度学习的论文,包括关系性RNN、关系性深度强化学习、图卷积神经网...

69450
来自专栏PPV课数据科学社区

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

33360
来自专栏悦思悦读

让AI自动翻译“媲美人类”的“对偶学习”是怎么回事?

突破 性进展 ---- 2018年3月14日,微软研究院宣布,他们研发的中英机器翻译系统在newstest2017测试集上,达到了可与人类翻译媲美的水平。 ne...

51690

扫码关注云+社区

领取腾讯云代金券