前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >目标检测-DETR

目标检测-DETR

作者头像
孔西皮
发布2021-03-04 10:30:22
4230
发布2021-03-04 10:30:22
举报
文章被收录于专栏:前行的CVer

DETR (Detection Transformer)

?更新中……

论文:End-to-End Object Detection with Transformers

代码:https://github.com/facebookresearch/detr

(前置知识:看懂本文需要了解Transformer,不懂的可以参考这位同学的博文

关于整片论文的介绍,这位已经讲得很详细了:

https://zhuanlan.zhihu.com/p/144974069

总体介绍

bipartite matching loss 二分图匹配损失

用于代替nms的作用。

首先,一张图片预测出的框的个数是固定的,是一个设置好的超参数N。所以输出有N个(c, b),表示一个box的类别和边界框的位置,则ground truth也要是N个(c,b)。然后两者计算本文提出的二分图匹配损失。步骤如下:

  1. 使用匈牙利算法,计算一个 predict result—ground truth 的最佳匹配
  2. 计算损失L

框架细节

object queries通俗解释就是,训练N个人,每个人对不同的事物感兴趣,包括不同的类别信息和不同的区域,然后这些人都将输出他们感兴趣的内容的最佳预测。由于transformer的decoder端也有self-attention,因此各个位置之间可以互相通信和协作。

object queries代替了传统检测中bounding box的作用,但是设计地很妙,像人类分辨时的方式,判断一个物体时只关注这个物体所在的区域范围。即这里用query做attention。

但是根据论文中可视化的散点图,猜测是不是这里造成了模型只对大物体有效,对小物体效果差。

youtube频道中一个老哥的奇思妙想:

用8个GPU训了6天。。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DETR (Detection Transformer)
    • ¶总体介绍
      • ¶框架细节
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档