文章/答案/技术大牛

发布

当年震惊AI界的佳佳，现在怎么样了

文章来源：企鹅号 - 人工智能杂谈

我们的故事要从一位美女说起。首先给出镇楼图：

1 镇楼图

“攘袖见素手，皓腕约金环。罗衣何飘飘，轻裾随风还。容华耀朝日，谁不希令颜？”正是对镇楼图中的美女最好的描述。想必你已经为她而倾倒了，实际上这位美女是中科大制作的“佳佳”机器人。

现在有请“佳佳”自我介绍：

“大家好，我是佳佳，身高1.6米，体重90多斤，是个可爱的萌妹子。我可以进行人机对话，进行握手等行为，说话的时候口型也会匹配，还可以根据与用户的交互来表现我的高兴或者沮丧等情感。我曾担任过2016“首届全球华人机器人春晚”和“谁是棋王”半决赛的主持人呢。”

1. 表情反馈

目前的“佳佳”已经具备了一些简单的微表情，我们先来看整个表情反馈系统的流程图，如下图所示：

2 系统实现简要流程图

在这个系统流程中，首先要获取用户的行为信息。用户的行为包括哪些呢？换言之，“佳佳”可以感受到的信息是什么？用户的语音，肢体动作，面部表情，甚至是触感都可以作为输入的信息。可以看出，输入的信息类型是多元化的。对于每一种类型的信息称之为一种模态，于是就有了多模态的信息输入；对于中间算法的处理过程我们先抛开不看；最后“佳佳”做出表情的反馈。

这里我们只考虑其中一个模态--表情相关的部分，于是整个过程可以简化为三个步骤：

（1）进行用户相关数据的采集，这里是用户的面部图像；

（2）利用设计好的算法对采集到的面部图像进行识别判断，确认用户的情感；

（3）“佳佳”做出相应的反馈，即佳佳展现出的相应的表情。

我们主要来探索表情本身，佳佳的表情系统也是整个863计划中的一个子课题。实际上，人类的情感可不是单纯的凭借六种基本表情（快乐、伤心、恐惧、愤怒、惊讶和厌恶）就可以完全衡量的。

想想我们经常用到的带有“笑”字的词语：微微一笑、眉开眼笑、开怀大笑、捧腹大笑，同样都是“笑”，但“笑”的程度是截然不同的。于是，对于表情就有了强度这一属性，用以衡量不同的程度。还有一个词语，叫做“哭笑不得”，这说明人类的表情在某一时刻并不是单一的，而是多种基本表情的组合。嫣然一笑是女子脉脉含情，笑里藏刀是小人口蜜腹剑，相视而笑是友谊地久天长，同样是笑背后的语义却又是如此的多样。综上，我们需要考虑三个问题：

（1）表情的强度问题；

（2）某一表情是多种基本表情的组合；

（3）同一表情表示的语义是多样化的。

上述提到的三个问题，无论是在第（2）步中，还是在第（3）步中都是要考虑的，要准确判断用户的情感及其表达的情感的程度。相应的，“佳佳”要准确地表达出情感及其程度。

对于前两个问题，我们做出这样地定义：可以使用一个六维的向量表示某种表情是否存在，比如，使用[1,0,0,0,0,0]表示快乐。如果考虑强度的话，可以变成这样，[2.5,0,0,0,0,0]，值越大表示越强。同时可以设置一个范围[0,5]，进一步的，也可以将连续的强度值变为离散的：0(代表小于0.5)，1（代表大于0.5，小于1.5），2（代表大于1.5，小于2.5），3（代表大于2.5，小于3.5），4（代表大于3.5，小于4.5），5（代表大于4.5，小于5）。同样的可以表示多种强度的情况：[2.5,1.1,0,0,0]。

对于最后一点我们可以尝试使用其它模态的信息来辅助进行判断，比如结合用户的语音，肢体动作和面部的图像，综合判断用户的情感。

2. 面部动作

前面我们讨论的方式是直接对面部表情进行衡量，实际上还有着间接的方式。和喜欢的她走在街头，突然看到她嘴角上扬，你意识到她在对你笑。于是你开始思考，嘴角上扬和微笑是不是有什么关系呢？进一步的，面部表情是不是可以用面部肌肉的变化来衡量呢？研究人员发现，面部肌肉的动作是和表情有很大关系的。经过研究，面部由一些面部动作单元（action unit，简称AU）组成，如图3：

3 面部动作单元示例

图3给出了一些常用的AU，实际上的AU数量是远多于这些的。AU的出现与表情有着直接的关系。比如，当一个人快乐的时候，AU12就会出现；当一个人惊讶的时候，AU1、AU2、AU5和AU26就常常会出现。因此我们也可以利用识别这些AU的存在与否来确定用户的表情。同样的，对于AU也可以定义强度这个属性，用于表示AU出现的程度，直观上就是面部动作单元的肌肉的动作程度。由此也可以利用识别AU的强度来判断表情的强度。

3. 表情识别demo

“纸上得来终觉浅，绝知此事要躬行”。现在让我们一起来利用卷积神经网络来实现一个表情识别的demo吧。

（1）数据集。首先我们需要先下载一个数据集，这个数据集是GENKI-4K数据库，包含4000张面部图片，由不同的人，光照，位置，拍摄条件组成。所有的图片都被标记为1（微笑）或者0（没有微笑）。所以实际上这是一个二分类的问题。但是为了程序的可扩展性，我们在实现时按照多分类的方式进行处理。

（2）预处理。利用Opencv 将数据集中的面部截取出来，然后将RGB图转化为灰度图（并不是必须的步骤，只是为了加快训练。原因在于RGB图有三个通道，灰度图只有一个通道，由此降低了计算的复杂性，当然也会丢失少量的信息）。

（3）训练集和测试集。将GENKI-4K数据库划分为训练集和测试集（简单起见，我们没有用验证集），随机选择GENKI-4K数据库其中的800张图片作为测试集，其余的作为训练集。使用tensorflow的tfrecord格式来存储这些图片，可以大大减少存储的体积，加快IO速度。

（4）卷积神经网络。现在来设计我们所需要的卷积神经网络，如图4：

4 卷积神经网络结构

损失函数使用交叉熵：

小编特地实现了demo所有的代码，想要一起学习的朋友们可以在公众号中输入“FER”获取。

发表于: 2018-07-232018-07-23 12:20:03
原文链接：https://kuaibao.qq.com/s/20180723G0QG7M00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

当年震惊AI界的佳佳，现在怎么样了

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐