?更新中……
论文:End-to-End Object Detection with Transformers
代码:https://github.com/facebookresearch/detr
(前置知识:看懂本文需要了解Transformer,不懂的可以参考这位同学的博文)
关于整片论文的介绍,这位已经讲得很详细了:
https://zhuanlan.zhihu.com/p/144974069
用于代替nms的作用。
首先,一张图片预测出的框的个数是固定的,是一个设置好的超参数N。所以输出有N个(c, b),表示一个box的类别和边界框的位置,则ground truth也要是N个(c,b)。然后两者计算本文提出的二分图匹配损失。步骤如下:
object queries通俗解释就是,训练N个人,每个人对不同的事物感兴趣,包括不同的类别信息和不同的区域,然后这些人都将输出他们感兴趣的内容的最佳预测。由于transformer的decoder端也有self-attention,因此各个位置之间可以互相通信和协作。
object queries代替了传统检测中bounding box的作用,但是设计地很妙,像人类分辨时的方式,判断一个物体时只关注这个物体所在的区域范围。即这里用query做attention。
但是根据论文中可视化的散点图,猜测是不是这里造成了模型只对大物体有效,对小物体效果差。
youtube频道中一个老哥的奇思妙想:
用8个GPU训了6天。。