学界 | 教你一个简单的深度学习方法检测人脸面部特征

AI科技评论

发布于 2018-03-13 17:53:16

1.3K0

发布于 2018-03-13 17:53:16

AI 科技评论按：你可能在一些手机软件上已经看到了给人脸增加特效的app，它们将一些可爱有趣的物体添加到自拍视频中，有些更有趣的还能检测表情自动选择相应的物体。这篇文章将会科普一种使用深度学习进行人脸表情检测的方法，并简要介绍下传统的检测方法。

在过去，检测面部及其特征，包括眼睛、鼻子、嘴巴，甚至从它们的形状中提取表情是非常困难的，而现在，这项任务可以通过深度学习“神奇”地得到解决，任何一个聪明的年轻人都可以在几个小时内完成。AI 科技评论编译的这篇来自佐治亚理工大学学生 Peter Skvarenina 的文章将介绍这一实现方法。

“传统”的方法（CLM）

假设你和我一样，现在需要进行人脸追踪（在这篇文章的情况下，是指将一个人的面部动作通过网络摄像头同步到一个动画人物上去），你可能会发现，以前实现这个任务最好的算法是局部约束模型（CLM），基于Cambridge Face Tracker或者OpenFace。这种方法是将检测的任务进行分解，分成检测形状向量特征（ASM）、布丁图像模板（AAM）和使用预先训练的线性SVM进行检测优化这几个步骤逐一处理。

首先对关键点进行粗略估计，然后使用含有部分人脸信息的预训练的图像进行SVM处理，同时对关键点的位置进行校正。重复这个过程多次，直到其产生的误差低于我们的要求。另外，值得一提的是，这一方法假定了图像上的人脸位置已经被估计，如使用Viola-Jones检测器（Haar级联）。但是，这种方法非常复杂并不是高中级别的学生可以轻易实现的，整体架构如下：

深度学习（Deep Learning）

为了实现文中一开始提到的，使得青少年可以进行人脸检测的目标，我们向大家介绍深度学习的方法。在这里，我们将会使用一种非常简单的卷积神经网络（CNN，convolutional neural network）并在一些含有人脸的图像上进行人脸重要部位的检测。为此，我们首先需要一个训练的数据库，这边我们可以使用Kaggle提供的人脸部位识别挑战赛的数据库，包含15个关键点；或者一个更复杂些的数据库MUCT，它有76个关键点（超棒的！）。

很显然的，有质量的图像训练数据库是必不可少的，这里，我们向“可怜的”本科学生致敬，他们为了毕业“牺牲”了自己的时间和精力对这些图像进行了标注，从而使得我们可以进行这些有趣的实验。

如下是基于Kaggle数据库的巴洛克面部和关键点的样子：

这个数据库是由灰度96*96分辨率的图像组成的，并且有15个关键点，分别包含两个眼睛各5个点、鼻子嘴巴共5个点。

对于任何一个图像来说，我们首先要对脸部进行定位，即使用上文提到的Viola-Jones检测器并基于Haar级联架构（如果说你仔细看看这一实现过程，会发现它与CNN的概念相近）。如果你想更近一步，也可以使用全卷积网络（FCN，Fully Convolutional Network）并使用深度预测进行图像分割。

不管你使用什么方法，这对OpenCV来说都很简单：

Grayscale_image = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY) face_cascade = cv2.CascadeClassifier(‘haarcascade_frontalface_default.xml’ ) bounding_boxes = face_cascade.detectMultiScale(grayscale_image, 1.25, 6)

使用如上的几行代码，可将图像中的人脸框出来。

然后，对每一个返回的人脸框，我们提取其中相应的子图像，将它们调整到灰度图像并将尺寸转换为96*96。新产生的图像数据则成为了我们完成的CNN网络的输入。CNN的架构采用最通用的，5*5的卷积层（实际上是3个layer，每层分别是24、36和48个ReLU），然后用2个3*3的卷积层（每个有64个ReLU），最后使用3个全连接层（包含500、90和30个单元）。同时使用Max Pooling来避免过拟合并使用global average pooling来减少平滑参数的数量。这一架构的最终输出结果是30个浮点数，这对应着15个关键点每个的想x,y坐标值。

如下是Keras的实现过程：

model = Sequential() model.add(BatchNormalization(input_shape=(96, 96, 1))) model.add(Convolution2D(24, 5, 5, border_mode=”same”, init=’he_normal’, input_shape=(96, 96, 1), dim_ordering=”tf”)) model.add(Activation(“relu”)) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2), border_mode=”valid”)) model.add(Convolution2D(36, 5, 5)) model.add(Activation(“relu”)) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2), border_mode=”valid”)) model.add(Convolution2D(48, 5, 5)) model.add(Activation(“relu”)) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2), border_mode=”valid”)) model.add(Convolution2D(64, 3, 3)) model.add(Activation(“relu”)) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2), border_mode=”valid”)) model.add(Convolution2D(64, 3, 3)) model.add(Activation(“relu”)) model.add(GlobalAveragePooling2D()); model.add(Dense(500, activation=”relu”)) model.add(Dense(90, activation=”relu”)) model.add(Dense(30))

你可能想选择均方根传播（rmsprop）优化和均方误差（MSE）作为损失函数和精度指标。只需要在输入图像上使用批处理正常化和全局平均遍历（global average polling）和HE normal weight初始化，你就可以在30个训练周期内获得80%-90%的验证准确率并实现<0.001的误差：

model.compile(optimizer=’rmsprop’, loss=’mse’, metrics= [‘accuracy’]) checkpointer = ModelCheckpoint(filepath=’face_model.h5', verbose=1, save_best_only=True) epochs = 30 hist = model.fit(X_train, y_train, validation_split=0.2, shuffle=True, epochs=epochs, batch_size=20, callbacks= [checkpointer], verbose=1)