前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GVCNN论文解读

GVCNN论文解读

作者头像
点云乐课堂
发布2020-05-18 15:31:29
7961
发布2020-05-18 15:31:29
举报

大家好。

今天介绍的文章是:

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition。

作者清华大学张子昭。这篇文章现在还下载不到,连arXiv上都还没挂出来。相关资料都是从最近的学术报告里公开出来的。

我们先来看一下它的网络结构:

觉得眼熟吗?看看前端输入的一排图片,是不是和MVCNN非常像。来看一下MVCNN的网络结构:

你可能已经猜到了,其实GVCNN就是对MVCNN做了改进。

MVCNN又是什么来路呢?

它可是最早将深度学习引入到三维形状识别中来的,早在ICCV2015会议上发表出来,当时就已经能在ModelNet40数据集上跑出90.1%的成绩了,可以说是师爷级的网络了。

后续的各种处理点云的方法,都会与它做比较。

它的思路其实很简单,对于三维物体,从多个视角去‘拍照’,得到12幅图片,然后码12个VGG网络上来,进行特征提取,把12组特征进行池化后,进行分类。

所以,MVCNN的缺点也很明显,网络巨大。这与当今小型化的趋势明显不符嘛!这么大的网络,别说往移动终端部署了,就是桌面电脑,跑起来都费劲。所以,这个网络的follower一直也不多。

笔者倒是见过一篇比较老的论文,是把三维物体往球形上面做投影,同样是把三维转换成多个二维图像去处理,跟MVCNN的区别是,往球型投影比平面投影更能反映三维物体的属性

再来看今天的主角GVCNN,它的改进是,把12幅图片进行了分组、加权。

作者考虑到,MVCNN中的12幅图像其实权重是一样的,但是实际当中肯定12幅图像对于分类的贡献是有高有低,通过合理加权,自然可以提高分类准确率。

具体操作就如上图,每个图片得到一组特征值,通过FC层获得分数,对分数进行分组,比如图中分成了三组。

然后,在组内按照MVCNN原来的池化操作进行。组间则是加权后在平均池化,得到最后结果。

下面是结果了:

可以看到,提升效果还是很明显的。

小结

怎么看待GVCNN呢?

笔者个人觉得意义不大,虽然提升了2~3个百分点,但是网络的缺点仍然存在,就是太重了,比较难以投入实用。

今年的ICLR当中,球面CNN都出来了,其实解决三维物体的新奇思路还有很多,值得挖掘,也更有价值。相反,对本就不太出色的方法修修补补,就真得有点炒冷饭的意味了。

这里是3D点云深度学习,下期见。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D点云深度学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档