首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

倪冰冰教授:视频智能理解是“体量最大”的人工智能

和围绕人类生活的其他事物相比,人工智能半个多世纪的历史并不算长。从一开始的神学家、科学家讨论,到后来的各行各业都开始布局,属于人工智能的这部“简史”,高效而垂直。伴随着人工智能进一步浸入式、碎片化地嵌入生活,人们达成共识的一点是:现代社会正在从“万物互联”转向探索“万物智能”。

在人工智能的众多类别中,哪一项应用范围最广泛,最为“包罗万象”?4月25日,在由镁客网主办,苏州市科学技术局指导的以“AI创新带来的智能革命”为主题的M-TECH论坛上,小视科技联合创始人,上海交通大学副教授倪冰冰指出,视频智能理解是“体量最大”的人工智能。视频智能包含人脸识别、动作识别、物体检测、媒体制作、视频推荐等内容。这项技术也正在与市场相结合,在安防监控、辅助驾驶和社交媒体中探索新的发展空间。甚至成为了一些行业的技术制高点,并引导着行业的发展方向。

倪冰冰教授认为,目前,视频智能也面临着诸多挑战。例如:时序问题突出、目标尺度变化大、视频体量大等等。面对亟待解决的难题,小视科技的AI研发团队提出了几大创新。

1行为识别

基于时序特征金字塔,提取多时间尺度运动特征,通过深度递归神经网络-LSTM提取多时间尺度运动特征。这一研究获得了由谷歌、斯坦福等国际顶尖人工智能研究机构主办的,国际最大规模视频行为识别竞赛,挑战难度最高的THUMOS’15行为检测国际竞赛中,获得视频检测小组国际第一名。

2行人重识别

从双路LSTM网络入手,取代传统的取帧、识别方法,解决跨摄像头行人重识别的问题。目前此项技术已在跨相机客流实时分析系统中应用。支持客流大数据的展示和百路以上监控视频,行人重识别准确率超过95%。

智慧商圈客流大数据统计

3群体计数

针对人像大小变化大,单一分辨率模型无法适应的问题,基于单路CNN卷积神经网络人群密度估计算法,自适应多路CNN卷积神经网络人群密度估计算法,通过Switchable-CNN,实现自适应子网选择,解决Model Averaging问题。其典型应用案例是世博会场景下的人数统计系统。在规模最大,人数最多的WorldExpo’10数据库中,达到了误差5%以内的国际最佳精度。

4将轻量化深度网络运用于人脸识别、活体检测

目前已运用到人脸识别门禁闸机,智能访客机等安防产品中。

倪冰冰教授在发言还提及到了视频从识别到生成的问题,“视频智能内容制作是人工智能的新战场”。

以上这些技术创新,已经分别在商圈客流实时分析、实时行人、车辆检测,智能医疗影像等领域实施和应用,并获得了良好的反馈。作为新工业革命的最新驱动力,人工智能不仅在走科技的最前沿,同时也在全面下沉。下沉至产业,细分市场,和场景结合,去解决问题,这也正是小视科技力求的行业+AI的发展方向。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180425B1N65900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券