作者 | Barack
编辑 | 陈彩娴
在新冠疫情在全球持续蔓延的背景下,来自意大利摩德纳大学的研究者们结合计算机视觉技术以及传染病预测模型设计了一种可以实时运行的多场景人员感染风险估计系统。
该系统可以实时地对摄像头中出现的人员进行检测,界面中还有一系列指标来反映当前场景的传染风险。可以看出,当别人离你太近时,系统就会出现红色警告!
凭借出色的系统演示以及系统背后理论基础扎实的计算机视觉模块和传染风险评估模块,这篇论文获得了 ECCV 2020的 Demo奖。
该系统对计算量的需求非常小,可以直接部署在公共场所中的摄像头上,只需配备一个嵌入式边缘AI计算设备即可满足运算需求,该系统中集成了一个人员检测器和姿态估计模块,用来将视频流中出现的人员位置转换为真实三维场景中的坐标,此外模型中的风险估计模型(模型参数经过流行病学专家验证)可以根据场景中人员的距离实时的计算出场景的传染风险等级,从而对场景的传染防范措施作出指导和监测。
现AI科技评论对这篇论文进行了详细解读。
论文链接:http://arxiv.org/abs/2007.10243
1
实时风险评估
再次来看一下该系统的用户界面,下图进行了详细的展示。
2
内部机理
该系统可以分为两个模块,即计算机视觉模块和传染风险评估模块,下面首先介绍传染风险评估模块。
1)人员检测
考虑到系统需要在计算资源有限的条件下实时运行,本文选择了CenterNet[1]作为人员检测网络,CenterNet首先会预测得到一系列关键点,进而估算得到bounding boxes的坐标信息,所以这里无需使用NMS之类的后处理方法,这使得CenterNet有更快的运算速度,非常适合部署在有实时计算需求的应用中,但是CenterNet也有一个严重的缺陷,就是没有考虑到真实场景中人员的互相遮挡情况,当面对人员较为拥挤的输入图像时,CenterNet倾向于生成一个较窄的bounding box,甚至将被遮挡部分直接忽略掉,如下图粉色框所示:
在本系统中,进行人员检测的根本目的是得到场景中人员在三维场景中的具体坐标信息,我们需要清楚的知道人员的落脚点,所以单独使用CenterNet并不能解决问题。
2)头部和落脚点检测
3)从图像平面到真实场景平面
系统整体的pipeline如下图所示:
3
系统评估
为了验证本系统的有效性,作者在JTA数据集上进行了行人检测实验,实验数据选取了JTA测试集的一部分子集,同时删除了一些摄像机运动和人物平面不一致(楼梯)的样本。
分别考虑了不同的摄像机距离对检测精度的影响,随着距离的增加,检测性能会下降,作者提到这可能是由于距离太远,摄像机捕捉到的行人面积太小导致的,同时作者也对系统标定做了消融实验,实验数据表明,进行系统标定在多种情况中会对检测性能带来一致的提升,尤其是在摄像机距离较近的时候。
4
总结
本文提出了一个简单有效的系统,为很多公共场所的疫情防控工作提出了一个新的解决方案,同时也是计算机视觉技术在公共服务领域的又一个全新尝试。文中进行的实验也极具有挑战性,足以证明该系统的可行性。
参考文献:
[1] X. Zhou, D. Wang, and P. Kra ̈henbu ̈hl, “Objects as points,” arXiv:1904.07850, 2019.
[2] M. Fabbri, F. Lanzi, S. Calderara, A. Palazzi, R. Vezzani, and R. Cuc- chiara, “Learning to detect and track visible and occluded body joints in a virtual world,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018.