URL https://openreview.net/pdf?id=T1Qx6EC08o
利用知识蒸馏来增强camera-based方法的特征学习。具体做法如下:
模型结构 专家模型: lidar backbone 使用 TransFusion-L的backbone 为了对齐bev表征,师生使用相同的head。expert预先训练一个高性能模型。
pipline分为三部分:
**Selective Focus in Pretraining: ** 噪声主要来自于不准确的depth. 在BEV空间,点云数据提供更 attentive 的特征表达。由于激光雷达数据中点数量较少的区域不太可能提供高可信度的有用特征,提取这些区域的知识可能使网络偏离正确的优化目标。所以文章利用来自点云数据密度的统计提示来限制蒸馏区域。每个bev 特征points对应的pillars内包含的点云points; 本质是提出了一种特征蒸馏选区域的新的见解。
Duplication in Finetuning BEV表示对齐后,camera学习到的特征表示分布应该遵循lidar的分布;所以camera直接复制了lidar的head和权重。
EXPERIMENTS
加了channel-wise normalization
一个亮点是,有别于之前利用object选取,本文提出利用点云密度来帮助选取,效果不错,证明了前背景信息都很重要。 本文重点在pretraining阶段,为了对齐特征表示,从老师那里学习知识,用了选区蒸馏,channel-wise等。