前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在3D空间,用点云数据学行人重识别特征

在3D空间,用点云数据学行人重识别特征

原创
作者头像
郑哲东
修改2021-03-09 14:25:44
1.8K0
修改2021-03-09 14:25:44
举报
文章被收录于专栏:行人重识别行人重识别

人生活在三维空间中。但已有的行人重识别(person re-ID)工作往往只关注 2D 空间中的图像匹配,忽略了3D的人体先验信息。在本篇文章中,我们做了一个微小的尝试,即在三维空间中通过生成的点云数据 来执行人体的匹配。

文章链接:https://arxiv.org/abs/2006.04569

代码链接:https://github.com/layumi/person-reid-3d


What (我们想去学到什么):

  1. 如下图,当我们人看到一张2D 行人图像的时候,实际上会自然的与3D人体做一个结合,我们在这个工作中希望能使用了这种结构化的信息。弥补现有基于2D图像工作的信息缺失。

2.具体来说,我们需要利用三维空间的人体结构化信息,和2D 的外观RGB信息,结合来学习 行人的匹配。我们希望这样学到的模型更鲁棒,能适应更多情况。因为它是“以人为本”的。

How (怎么学):

  1. 首先,我们没有3D点云数据。故本文采用2D图像建模, 将2D图像映射到3维模型上。具体来说,我们先估计了三维的pose,然后与2D RGB信息做匹配。如下图,我们也可以旋转模型,透明的地方就是背后没有RGB颜色的区域。

2. 将原始图像数据集完全转换成 点云数据后,我们进一步需要设计网络去学习这样的信息。每个点云数据除了 rgb信息外,还有坐标xyz信息。所以如果每个人都检测到m个点,事实上,我们的输入为 m x 6 这样一个矩阵。

3. 我们设计了一个图卷积神经网络 OG-Net 来学习这样的数据,参考了 PointNet++ 和 DGCNN中的模块。类似传统CNN,我们逐步收缩点的数量,集中语义信息。最后和传统CNN一样,我们映射到一个512维的特征,做行人的身份loss L_{id}.

4. 每一个 Omni-scale Module ,如果不需要将采样点云,则如下左图,就是一个基本的GCN,传播一下最近邻的信息。而对于需要降采样的情况,则如下右图,我们包含了更多跨点的信息传播的function。

Discussion :

  1. 与传统方法的一些差异,简要来说:(1)我们抽取了多尺度的信息,同时采用了residual的形式,结合了不同层的点云特征。(2)我们对RGB 和 XYZ坐标信息,分别处理。XYZ信息主要用来建Graph,而RGB信息则主要是用来运算特征;(注:在最后一个block,红色标注处,我们尝试结合RGB特征和XYZ来获得一个non-local效果的Graph。) (3)由于点云的数量多,相比DGCNN,我们的模型更高效;而相比PointNet和 PointNet++, OGNet 包含更多的跨点的信息传播,丰富了最后特征的表达能力。
  2. 一些数据上的限制。(1)不得不说,做实验的时候,我们也遇到了数据上的限制,很多数据集比如Market-1501,已经把图像都resize好了 到 128x64,会丢失行人的身高 胖瘦等信息,所以导致我们的模型不能用上更多行人身高的信息(这也是现有工作都缺失的)。(2)同时,我们也发现使用的3D模型,不能刻画 比如 头发,裙摆,背包等信息,也导致了一些信息的流失。所以在实际的实验中,我们还是引入了背景。

实验:

  1. 与2D数据对比,就是抹去z的深度信息。我们发现结果下降。说明3D的点云,确实在信息匹配上有优势,学到了更好的信息。

2. 与其他2D CNN baseline相比。有一点需要说明,因为我们的网络没有在ImagNet上pretrain,所以我们比较的方法也是train from scratch来比较。我们可以看到,OGNet 只使用了 ResNet-50 差不多十分之一的参数量,但是达到了更好的效果。同时 OG-Net-Small 使用了1.2M的参数量,也比很多轻量级的网络好。

3.OGNet 使用了3D人体结构化信息,所以泛化能力也相对强。我们的模型直接迁移到其他数据集上也获得了比较好的结果。

4, 可视化结果。可以看到,对于正常的检索样本 和 部分遮挡的检索行人,OGNet 都可以得到比较好的检索结果。

5. 进一步,我们对网络中的模块做了分析。我们分析了如short-cut等 可选的功能,Graph中不同的邻居数量等。

6. 同时我们也分析了网络的敏感性。在实际场景中,扫描到的点云的密度可能有变化,不过OG-Net对此还是相对鲁棒的。

7. 最后,虽然我们不研究点云分类。我们也尝试了点云分类数据集 ModelNet40,实际运行中将RGB信息也替换成XYZ坐标。也可以得到相对不错的结果,同时参数量更少。

在6月的排行榜上就达到较高水平。(https://paperswithcode.com/sota/3d-point-cloud-classification-on-modelnet40 )

代码链接:https://github.com/layumi/person-reid-3d

最后感谢大家看完~欢迎关注分享点赞~

也可以check我的一些其他文章 和关注我们实验室的知乎主页 悉尼科技大学ReLER实验室

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
人体分析
腾讯云神图·人体分析(Body Analysis)基于腾讯优图领先的人体分析算法,提供人体检测、行人重识别(ReID)等服务。支持识别图片或视频中的半身人体轮廓;支持通过人体检测,识别行人的穿着、体态等属性信息。可应用于人像抠图、背景特效、人群密度检测等场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档