开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >论文阅读: 1909.OCRNet

论文阅读: 1909.OCRNet

作者头像

JNingWei

发布于 2021-12-06 21:47:28

5370

发布于 2021-12-06 21:47:28

举报

文章被收录于专栏：JNing的专栏JNing的专栏

1909.11065：Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation

创新点

OCR：聚合 “对象上下文信息“（Object-Contextual Representations）的分割head。
- 因为像素的标签是像素所在的对象的标签，可通过相应的粗分割对象区域信息，对粗分割进行后处理（来增强像素特征的描述）。
- 提出的OCR方法不同于传统的多尺度上下文方案：
  - OCR将相同对象类别的上下文像素与不同对象类别的上下文像素区分开来（是对对象进行了区分，学习了像素-对象区域之间的关系），而多尺度上下文方案（例如ASPP和PPM）则不会，仅区分具有不同空间位置的像素：
    在这里插入图片描述
- 该分割head：
  - 1.将上下文像素划分为一组软对象区域，每个软对象区域对应于一个类别，即从深层网络（例如ResNet或HRNet）计算出的粗略软分割。这种划分是在分割groud-truh的监督下学习的。
  - 2.通过聚合相应对象区域中像素的表示来估计每个对象区域的表示。
  - 3.使用对象上下文表示（OCR）扩展每个像素的表示。 OCR是所有对象区域表示的加权聚合，其加权根据像素和对象区域之间的关系计算。
- 网络结构：
  - Backbone：ResNet / HRNet 。
  - OCR head：
    - 整体看来就像attention套娃：
      在这里插入图片描述
      在这里插入图片描述
      - 多种转换全部是通过不同size的conv实现的。
- 完整结构详解（其中关键操作和模块名和论文图对应，并给出了维度尺寸）：
  在这里插入图片描述
- 代码实现：
  - 主函数：
    在这里插入图片描述
  - step2：
    在这里插入图片描述
  - step3对应的代码：
    在这里插入图片描述

性能：

HRNet + OCRNet 是当前分割的SOTA：
在这里插入图片描述

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2021-09-06 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

创新点
性能：

相关产品与服务

文字识别

文字识别（Optical Character Recognition，OCR）基于腾讯优图实验室的深度学习技术，将图片上的文字内容，智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别，也支持运单等手写体识别，支持提供定制化服务，可以有效地代替人工录入信息。

产品介绍产品文档

热门文字识别资源包新用户14.9元起，应用广泛，准确率高