首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大咖 | 清华大学王生进教授:人像态势识别及其在智能视频监控中的应用

大咖 | 清华大学王生进教授:人像态势识别及其在智能视频监控中的应用

作者头像
大数据文摘
发布2018-05-24 18:17:39
1.6K0
发布2018-05-24 18:17:39
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘记者谭婧、魏子敏

安防已经成为人工智能落地场景中的重要赛道,其涉及的智能视频分析、人脸识别等关键技术也在研究领域受到了极大的关注。那么安防领域中涉及的人脸识别有何痛点?人工智能+安防的未来又有哪些新的趋势?

10月29日,2017年第十六届中国国际公共安全博览会(CPSE安博会)在中国深圳会展中心开幕。在政府管理论坛上,清华大学媒体大数据认知计算研究中心主任王生进教授发表了题为《人像态势识别及其在智能视频监控中的应用》的演讲,他指出,目前我国视频监控建设卓有成效,摄像头的数量惊人,达到了2000多万个。如此大量级的数据只依靠人工监控已经无法实现大规模视频监控,急需人工智能以及智能分析技术有效的技术支撑。

王生进教授从三个方面阐述了人脸识别在安防中的应用:1、新一代人工智能发展与智能安防;2、人脸识别技术与应用系统;3、以人为中心的安防理念与人像态视识别。

大数据文摘从现场发来一手报道,以下为王生进教授演讲精华,在不改变原意的情况下有部分删改:

一、新一代人工智能发展与智能安防

当前,世界范围内公共安全面临严峻情势,是国际上关注的重大课题,信息内容与情报成为掌控局势的关键要素。面向大数据背景下国家公共安全保障是重大的国家的需求。聚焦公共安全、平安城市、视频监控、网络安全的需求,以安防视频大数据,及网络空间各种视频、图像、语音、网络信息为大数据基础,创新人工智能和机器学习理论,构建公共安全大数据应用技术创新平台是我们工作的重点。

我们现在面向的空间主要有两个。

第一面向物理空间安全:全国平安城市建设视频监控前端数量已超过2000万。目标感知能力不足,大数据给公共安全事件即时感知、精确分析、快速搜索带来巨大困难,急需人工智能技术支撑。

第二面向网络空间安全:网络空间富媒体通信的引入,带来新型媒体信息管控难题,国家急需大数据环境下富媒体内容感知、网络信息安全、网络多媒体内容监测的支撑技术。

十二五期间,全国600大中城市视频采集系统建设已初具规模,监控系统26.8万余个(2009),安装摄像头2000万余个(2013)。按每个摄像头每天约7.2GB (0.3G(CIF)*24)的数据量,北京市摄像头40余万个(2011),每天产生的数据量为 2800TB,数据量巨大。

在这样大量的数据下,依赖人工监控,智能化程度低,无法实现大规模视频监控环境下的事前感知、事中联动、事后有效处理及智能检索。急需人工智能以及智能分析的技术,在视频监控里能够提供有效的技术的支撑。

2017年7月8日,国务院发布新一代人工智能发展规划(国发〔2017〕35号)。人工智能成为国际竞争的新焦点,是引领未来的战略性技术;人工智能成为经济发展的新引擎,作为新一轮产业变革的核心驱动力;人工智能带来社会建设的新机遇,将深刻改变人类社会生活、改变世界。抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国。

根据这个核心,《规划》里提出利用人工智能提升公共安全保障能力的规划和要求。

第一、促进人工智能在公共安全领域的深度应用,推动构建公共安全智能化监测预警与控制体系。

第二、围绕社会综合治理、新型犯罪侦查、反恐等迫切需求,研发集成多种探测传感技术、视频图像信息分析识别技术、生物特征识别技术的智能安防与警用产品,建立智能化监测平台。

第三、加强对重点公共区域安防设备的智能化改造升级,支持有条件的社区或城市开展基于人工智能的公共安防区域示范。

在智能视频分析关键技术方面,我简单列了相关的关键技术:

1、侵入/越界检测 2、遗留物体事件检测 3、拿走物体事件检测 4、徘徊检测 5、行人/车辆检测、跟踪 6、人脸(人像)/行人/车牌识别 7、人群密度监测 8、异常行为(奔跑打架斗殴)检测 9、视频质量诊断 10、视频浓缩与摘要 11、视频内容快速检索 12、图像增强与复原技术

人脸识别技术应用方面,根据实际应用场景,人脸识别可以分为如下3类:

第一、有配合人脸识别。分认证和查询,通常应用在证件照人脸,声明我是A,然后将A的模板人脸图像和现场采集的A的人脸图像进行比对,给出Yes or No,或查询大库。通常要求配合。

第二、半配合人脸识别。也分认证和查询。通常应用在受限的通道、卡口,进行黑/白名单比对。该类应用通常光照稳定,不要求配合。

第三、非配合人脸识别。查询为主,通常应用在视频监控的动态布控场合,进行黑名单查询。该类应用光照复杂,姿态不确定,难度大。

清华人脸识别技术——人证合一验证通关应用:2005年,由公安部出入境管理局主持集成清华大学人脸技术,世界上首次在我国出入境旅客最多的深圳罗湖口岸开通“旅客自助查验通道” ,日均出入境人数在数十万以上。已推广到深圳、珠海两个地区的边检口岸共已开通了近400条自助通道,近300万旅客,验放旅客超过数亿人次,通过率98%,成为世界人脸识别技术大规模成功应用的范例。

二、人脸识别技术与应用系统

人脸识别技术通过采用摄像机或摄像头,采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关处理技术,通常包括:人脸检测、人脸跟踪、人脸五官定位、人脸归一化、特征提取、分类器训练和比对匹配,以达到识别不同人身份的目的。被广泛地应用在安全、认证等身份鉴别领域,因而被誉为”21世纪十大影响人类生活“的革命性技术。

人脸识别从应用上一般分为人脸检测,人脸五官定位,1:1人脸识别,1:N人脸识别,M:N动态布控。人脸检测与五官定位应用方向:客流量统计,视频检索等。智能贴图,智能美妆美颜,变脸特效等:

1:1人脸识别应用方向是指身份证人脸认证系统,社保人脸识别。

1:N人脸识别应用方向是指身份证照片查重,护照照片查重。比如你现在要做一个护照,你是张三,公安部门会到人口库里面查一下,看你会不会是顶替,也就是一人多证。

M:N人脸识别应用方向是指动态监控,黑名单监控,VIP客户管理系统,校园人脸识别系统,智能楼宇。

人脸识别技术,近两年发展非常迅速。基于机器学习的人脸识别方法方面,人脸识别方法总体上可分为三大类:

一是基于统计的识别方法,主要包括特征脸(Eigenface)方法、隐马尔科夫模型方法、子空间法等;二是基于网络连接机制的识别方法,包括人工神经网络(ANN)方法和弹性图匹配方法等;三是几何特征方法和三维模型等一些其他的综合方法。

1、人脸识别核心课题

人脸识别的过程:令x 为一个待识别的人脸输入,F(x)为一个分类器函数,y 是关于x 的类别标签输出。人脸识别的关键,是获得高性能的F函数。传统的人脸识别的方法(Deep Learning以前): F分类器函数的构建,主要是分步处理、人工设计的。

基于统计学习的人脸识别方法得到了广泛的应用。人脸识别当前遇到的主要困难包括:

人脸面部结构的相似性 人脸的姿态变化 人脸的表情变化 复杂环境的光照变化 人脸的饰物遮挡 人脸的年龄变化

以上问题给人脸识别带来了相当大的挑战。随着深度学习的发展,我们遇到的困难得到了解决。

2、人工智能新浪潮的关键技术——深度学习

人工神经网络是一种端到端的机器学习方法(全步骤一次性学习)。端到端的学习方法一出现给人工智能带来了巨大的推动,应用在AlphaGo,图像识别,语音识别,无人驾驶,VR/AR,智能交通,智能视频,智慧医疗,智能制造。

3.人脸识别关键技术

1)人脸检测:判断输入图像中是否存在人脸;如果存在人脸,返回人脸所在的位置。

2)关键点定位:确定人脸中眼角、鼻尖和嘴角等关键点所在的位置,为人脸的对齐和归一化做准备。

3)人脸归一化:根据关键点的位置,采用相似变换,将人脸对齐到标准脸关键点,并裁剪成统一大小。

4)特征提取:利用海量数据,训练卷积神经网络;将人脸图像表示成具有高层语义信息的特征向量。

5)特征比对:主要是利用Metric Learning等技术,进一步提升识别准确率。

4.人脸检测技术

(1)基于A CNN Cascade for FaceDetection框架。一共6个CNN,3个detection-net用于判断输入的区域是否是人;3个calibration-net对输入的人脸框进行校正,得到更加准确的人脸框。检测过程中采用NMS消除高度重叠的窗口。

(2)人脸识别网络。针对不同人脸识别场景,设计了多种网络架构,以适应不同场景(速度、精度)的要求。图是我设计的一个网络,左边的网络具有速度快的特点,仅需要5毫秒的CPU时间,在LFW上的识别准确率为97.28%,主要用于对实时性要求高的场景。右边的网络,RES-FaceNet,一共包含26个卷积层,5个max-pooling和1个全连接,单个model在LFW上的识别准确率可达99.22%。

三、以人为中心的安防理念与人像态视识别

基于以人为中心的安防理念,提出人像态视识别新概念。安防的重点是人,特别需要关注和获取重点人群的全面信息。例如以下的相关信息:关注人物出现在公共场所和交通卡口;他的行为和举止是否异常;携带包裹进入公共场所,走出后箱包是否消失;其面部表情和神态如何;近期是否有过敏感接触、过激言语等。

1、人像态视识别

人像态视识别,是我们构建的深度人像识别的一个新概念,即对于人的像态、形态、神态、意态。

—像态包括人脸和行人表观图像;像态,感知两个维度: 1、对感知对象的物理特征进行精准认知,以表达如颜色、尺寸等;2、对这些特征组合的表象进行属性描述,以表达是什么,如车牌、人脸、行人。像态包含表观:人脸、指纹、掌纹、虹膜、指静脉、人群聚集事件等。

形态包括静止和序惯图像。形态,感知两个维度: 1、对感知对象的静止肢体特征进行认知,以表达如动作、姿态等;2、对感知对象的肢体变化特征进行描述,以表达做什么,如步态、奔跑、逆行。形态包含多种人体肢体特征:姿态、行为、动作、步态、轨迹等。视频监控行人识别系统,是在跨视域视频监控网络中,依据行人外观和步态特征,识别查找追踪在不同摄像头下的特定行人。

神态包括主动和被动下的人脸图像。神态,感知主动和被动两个维度: 1、对感知对象的面部表情特征进行认知,以表达如喜怒哀乐等;2、对感知对象的面部神色特征进行描述,以表达其内心的波动、思想的意识、精神的状态,通常不为人的意志所控制。神态主要用于表达人的内心状态:神态自若、神色慌张、精神恍惚等。

意态包括显性信息和隐性信息。按照这个范畴定义,构成人像态势识别新概念,智能安防,人是其中核心关键的要素。意态与隐形信息相关联,主要体现在信息的逻辑关系的关联上,具有显性和隐性两个维度: 1、对感知对象行为的企图、目标、后果的显性特征进行认知;2、对感知对象行为的企图、目标、后果的隐性特征进行认知,以表达其行为与其他事件的关联、影响、及潜在的可能后果。意态的显性特征认知较为容易实现,意态的隐性特征认知难度较大,但实际的事件预测十分需要。例如,同样是购买一把菜刀,如果是一个主妇,可能是用于家庭的厨房餐饮;但若是有前科的人,则需要预警;—又如,一个人长时间在某个地方徘徊,像态是徘徊,但意态可能预示可能的事件。

大数据时代,如何处理从各个数据源收集来的信息,如何对不同地点、不同媒体、不同时间、以及不同清晰度、不同粒度的信息进行综合利用,包括对信息的真伪进行鉴定;都是从未完成过的挑战。显性信息关联,主要体现在目标表观信息的关联上,如目标类型,目标属性,目标状态,目标时空点;隐性信息关联。主要体现在逻辑关系信息的关联上—“蝴蝶效应”,亚洲蝴蝶拍拍翅膀,将使美洲几个月后出现比狂风还厉害的龙卷风!

人像态视识别,全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。1、2态,侧重“格物”,本意即为考察人这个事物; 3、4态,偏向“致知”,进而达到完善的识别和理解; 人像态视识别的目标就是“格物致知”。综上,通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。人脸识别系统包含人脸识别、年龄估计、性别识别等,新一代的具有智能的安全监控技术,可实现对人脸的检测、识别和分类;人像态视识别,全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别,实现对目标人的整体信息分析、完善的状态描述。

将人像态视识别与智能视频分析有机结合,运用于安防领域,无疑将提高公安安防工作的效率,为平安城市建设和公共安全保障提供精准和有效的信息技术手段,大数据背景下国家社会安全保障重大需求。

服务器级ARM人脸机芯

人人智能:开创人脸机芯,领军前端智能

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档