人脸识别技术的发展历程

AI算法与图像处理

发布于 2019-06-10 16:20:48

9.8K0

发布于 2019-06-10 16:20:48

人脸识别既是一项起源较早的技术，又是一门焕发着活跃生命力、充满着学术研究魅力的新兴技术领域。随着近些年人工智能、大数据、云计算的技术创新幅度的增大，技术更迭速度的加快，人脸识别作为人工智能的一项重要应用，也搭上了这3辆“快车”，基于人脸识别技术的一系列产品实现了大规模落地。

北京站的面部识别进站系统

随着2006年深度信念网络的提出，深度学习作为机器学习中一个单独的研究领域被提了出来。深度学习具有传统方法所不及的优点，尤其是经过GPU加速后，深度学习程序的执行速度变得更快，足以满足工业场景中对算力的要求，也在客观上促进了产业的发展。在可以预见的未来，人脸识别领域必将会散发出更耀眼的光芒。

下面，我们将从人脸识别的历史发展情况和当前技术热点，揭秘这项神秘而又熟悉的技术。

人脸识别历史沿革

对人脸识别的研究可以追溯到20世纪六七十年代，经过几十年的曲折发展，如今该技术已经日趋成熟。

最早与人脸识别相关的研究并不是在计算机工程领域，而是在心理学领域。早在20世纪50年代，就有学者尝试从心理学的角度来阐释人脸认知的奥秘。除了从感知与心理学的角度来研究人脸识别原理外，也有从生物视觉角度来探索奥秘的。但真正与我们现在的人脸识别技术有较多关联的研究，其实出现在20世纪70年代。

如果将人脸识别技术的发展历程划分为3个阶段的话，那么第1阶段就是起源于20世纪70年代的半机械式识别方法;第2阶段则是以人机交互式识别方法为主，而第3阶段就是我们现在所处的阶段，机器能够自动地进行人脸识别与判断。下面，我们分别介绍一下这3个阶段。

第一阶段：半机械式识别阶段

这一时期的代表性论文为Parke等人发表的《Computer generated animation of faces》，在论文中，研究者实现了人脸灰度图模型，而他们也被认为是这一阶段人脸识别技术的代表性人物。这一时期的人脸识别过程主要以大量人工操作为主，识别过程几乎全部需要操作人员来完成，因此，这样的系统是无法自行完成人脸识别过程的。

第二阶段：人机交互式识别阶段

人脸识别技术在这一阶段得到了进一步的发展，研究者可以使用算法来完成对人脸的高级表示，或者可以以一些简单的表示方法来代表人脸图片的高级特征。例如AJ Goldstein、LD Harmon与AB Lesk在论文《Man-machine interaction in human-face identification》中使用几何特征参数表示人脸的正面图像；Kaya等人在论文《A basic study on human face recognition》中使用统计学方法，以欧氏距离作为人脸特征；Kanade则实现了一个半自动回溯识别系统。

但是，这部分人脸识别方法仍然需要研究人员的高度参与，例如在人脸识别过程中需要引入操作人员的先验知识，识别过程并没有完全摆脱人工的干预。

第三阶段：自动人脸识别阶段

只有将识别过程自动化才可以真正达到人脸识别的效果。而这项技术的发展，离不开机器学习的发展。

早期的自动人脸识别与我们印象中的机器学习并不太相似，一般以几何特征和相关匹配的方法居多，在模型的设计上，常常会引入一些先验知识。

除此之外，还有基于统计与基于子空间的识别方法。例如著名的特征脸（Eigenfaces）法就属于一种基于子空间的人脸识别方法。

在这一阶段中，人工神经网络（Artificial Neural Network,ANN）也得到了广泛的应用，由此演化出很多人脸识别中的新方法。例如当前非常热门的深度学习方法就属于人工神经网络的范畴。

DT时代的呼唤

我们大家对IT并不陌生，IT是Information Technology的英文缩写，意为信息技术。而DT是Data Technology的英文缩写，我们自然而然地可以将其翻译为数据技术。如果说以IT为核心的时代我们称之为信息时代，那么，以DT为核心的时代，我们就可以将其称为数据时代。

DT这个概念最早是由阿里巴巴集团创始人马云在2014年北京的一次大数据产业推介会上提出的。至于我们现在所处的时代究竟已经进入了所谓的DT时代抑或仍然处在IT时代，其实并不重要。毫无疑问的是，我们所处的时代已经进入了一个崭新的阶段，一个以大数据、云计算和人工智能作为生产力驱动的崭新阶段。

人脸识别作为当前非常热门且技术含量很高的一项技术，吸引了很多优秀学者与工程师的目光。在如今这个“数据爆炸”的新时期，人脸识别作为一项炙手可热的研究领域迎来了发展的新契机。

机器学习作为人工智能的核心技术之一被广泛应用在计算机视觉领域，如SVM算法、人工神经网络、Boosting算法等被巧妙地应用在人脸识别场景，并且取得了不错的效果；大数据技术为海量数据的收集、整理、存储等提供了高效的解决方案，也为以深度学习为主的机器学习系统提供了海量的训练数据来源，使机器学习系统获得了更好的泛化能力。关于算法与算力谁更重要的讨论由来已久，但自从能够实现按需配置、弹性扩容的云计算技术发展起来以后，算力已经不再是明显的瓶颈。

伴随着新技术的诞生，人脸识别系统的实现也变得更加便捷，识别准确率同时得到大幅度提高。Face++旷视科技、云从科技、依图科技等一批专注于人脸识别云服务的独角兽企业如雨后春笋般出现，一方面由于技术的日臻成熟，已经能够满足绝大多数应用场景的需求；另一方面也是因为多种云服务形式的广泛应用，形成了一个潜在的巨大消费群体。云服务形式将逐步替代本地客户端方式，类似在线人脸识别这样的SaaS云服务也迎来产业发展的好时机。

计算机视觉的新起点

人脸识别是计算机视觉的一个重要应用，因此，说到人脸识别就不得不提及计算机视觉。

俗话说，“眼睛是心灵的窗口”，我们在日常生活中也可以切身体会到视觉不同于其他感官的特殊地位。科学研究表明，人类对外界环境的感知绝大多数是通过视觉来完成的，这一比例高达80%以上。可见视觉对人类生活的重要性。在人工智能领域，自然也少不了对视觉的研究。我们将以计算机为工具进行视觉感知与图像处理等相关的研究领域划分为一个独立的研究空间，这个研究空间便是我们所谓的计算机视觉，也称为机器视觉。

自从人工智能的概念提出来以后，就一直与计算机视觉产生着联系。早在20世纪50年代就被提出的感知机算法的一个典型应用场景，就是用来对图像传感器获取到的20×20像素的字母进行识别。到了20世纪90年代，机器学习算法迎来了一个“井喷”式发展时期。伴随着更多机器学习算法的提出，机器学习开始成为计算机视觉领域的一个重要工具，其主要应用在图片的检测、识别与分类上。值得一提的是，人脸识别也在这时迎来了一个研究上的高潮。但是，真正能够算得上是计算机视觉新起点的时间点是在2012年。

到了21世纪，计算机视觉俨然成为计算机学科的一项大的研究门类了。国际计算机视觉与模式识别会议（CVPR）、国际计算机视觉大会（ICCV）等计算机视觉领域的顶级会议也成为人工智能领域的年度盛会，在计算机学界具有举足轻重的地位。

斯坦福大学李飞飞教授牵头创立了一个庞大的图片数据库ImageNet，该数据库目前包含了大约1400万张图片，共分为2万个类别。从2010年起，每年举办一次大规模视觉识别挑战赛（ILSVRC），比赛规则为：从这个巨大的数据库中选择1000个类别、超过120万张图片作为数据集，参赛人员通过设计算法模型来为这些图片分类，评比哪一个参赛组的识别效果最优。这项比赛逐步成为计算机视觉领域的一项重要赛事，参赛者大多来自大学、科研机构与巨头科技公司。通过评比结果能够客观地展现算法模型的好坏，在赛事中取得名次的算法模型通常会受到极大的关注，甚至可能会对计算机视觉的发展产生深远影响。

包含了约1500万张图片的ImageNet

首届ILSVRC的冠军由来自NEC研究院的余凯组获得，他们的识别错误率为28%。2011年，来自欧洲的研究人员将识别错误率刷新至25.7%，性能提升并不是很明显。但是，真正将识别错误率大幅度下降的还要属2012年参赛的AlexNet神经网络，它一举将识别错误率下降至15.3％，完胜第2名26.2％的识别错误率。

从数字上看，这样的进步幅度是惊人的。事实也是如此，AlexNet在当时的确引起了不小的轰动。AlexNet成功的秘诀就是引入了Hinton教授提出的深度学习思想。这里还不得不提到一个很有趣的现象。

早在2006年，Hinton教授就已经提出了深度信念网络，这标志着深度学习理论的诞生。但是，当时的许多学者并不相信这样的一种理论，统计学习方法仍然牢牢地占据机器学习的统治地位。甚至，直到Hinton教授的学生Alex实现了AlexNet神经网络并且一举以大比分优势夺冠之后，很多人仍然对模型持质疑态度，认为该算法难以解释且参数量过多。不过，在这之后的第2年，ILSVRC比赛中的模型就大面积地出现深度学习模型了。在后来的比赛中，深度学习俨然成为主流，少数非深度学习神经网络结构的模型也在比赛中沦为垫底。

深度学习的诞生为机器学习开启了一个全新的研究领域。在此之后，深度学习也成为研究计算机视觉的一项强有力的手段，在诸如人脸识别、物体检测等领域大放光彩。因此，深度学习的诞生，特别是AlexNet的实现，也被认为是计算机视觉发展的一个崭新的起点。

本文摘自：《Python人脸识别：从入门到工程实践》