前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用Transformer来进行目标检测和语义分割

利用Transformer来进行目标检测和语义分割

作者头像
Mezereon
发布2021-04-02 09:50:21
9220
发布2021-04-02 09:50:21
举报
文章被收录于专栏:MyBlogMyBlog

介绍

这次介绍的是Facebook AI的一篇文章“End-to-End Object Detection with Transformers

恰好最近Transformer也比较热门,这里就介绍一下如何利用Transformer来进行目标检测以及语义分割。

关于Transformer,可以参考我的这篇文章。

这里我简要地介绍一下Transformer,这是一个用于序列到序列建模的模型架构,被广泛应用于自然语言翻译等领域。Transformer抛弃了以往对序列建模的RNN形式的网络架构,引入了注意力机制,实现了不错的序列建模以及变换能力。

大致架构以及流程

DETR的架构

如上图所示,这里面主要分为两个部分:

  • Backbone:主要是CNN,用来抽取高级语义特征的
  • Encoder-Decoder:将高级语义特征利用并给出目标预测

更为细节地,给出如下的架构

架构细节

目标检测的效果

目标检测效果

如上图所示,可以看到DETR的计算次数不算多,但是FPS也不算高,只能算中规中矩。

那么语义分割呢?

这里给出关于语义分割的大致架构,如下图所示:

语义分割架构

注意到,图中所描述的,边界框嵌入(Box Embedding)实质上就是decoder的输出(在FFN之前)。 然后使用一个多头部注意力的机制,这个机制实质上是对Q,K,V进行多次的线性变换,在这里面,K和V是Encoder的输入,Q是decoder的输出。 其中M是多头部注意力的头部数量。

之后,通过一个简单的CNN,得到一个Mask矩阵,用来生成语义分割的结果。

语义分割结果分析

语义分割结果

可以看到比起PanopticFPN++来说,效果的提升有限,特别是AP并不佳,表现一般。

结论

文章将Transformer应用到了目标检测以及语义分割的领域,取得了不错的效果,但是性能上相较于FastRCNN类似架构的方法,并没有明显的提升,但显现出这种序列模型不错的扩展能力。用一个架构解决多种问题,统一化模型的目标指日可待。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 大致架构以及流程
  • 目标检测的效果
  • 那么语义分割呢?
  • 语义分割结果分析
  • 结论
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档