前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读: 1908.HRNetv1

论文阅读: 1908.HRNetv1

作者头像
JNingWei
发布2021-12-06 21:46:27
3130
发布2021-12-06 21:46:27
举报
文章被收录于专栏:JNing的专栏JNing的专栏

1908.07919:Deep High-Resolution Representation Learning for Visual Recognition

创新点

  • 一种全新的网络架构思想:
    • 以前的模型都是下采样后再上采样,采用低分辨率到高分辨率的处理来达到预期的高分辨率表示。
    • 而HRNet能够在网络整个过程中保持特征的高分辨率表示:
      • 一直维持高分辨率分支,通过融合低分辨率分支上采样带来的high level信息,达到重复多尺度信息的融合。可以使得heatmap在空间上预测关节点更准确。
    • 网络结构:
      • 由一个高分辨率的子网开始,后面逐渐维持多个低分辨率的子网并行进行,形成多通道子网进行联合forward的网络结构。
      • 最后只在高分辨率分支来得到预测的关键点heatmap输出。
      在这里插入图片描述
      在这里插入图片描述
    • 其他结构设计:
      • 交换单元(exchange units):
        • 用于跨平行运行的子网进行特征融合,每个子网重复收到来自子网的信息。
        • 结构如下图所示,下面是数个exchange blocks,每个block由3个平行的卷积单元和一个跨单元的交换单元组成。
        在这里插入图片描述
        在这里插入图片描述
        在这里插入图片描述
        在这里插入图片描述
      • HRNet是top-down检测网络,即单人姿态估计。
      • 在网络的设计上,借鉴了ResNet在每个stage上的深度和每个分辨率上的channel数。
      • HRNet的主体部分,由4个并行的子网组成的4个阶段组成:其分辨率逐渐降低到一半,相应的宽度(channels)增加到两倍。第一阶段包含4个残差单元(residual units),每个残差单元于ResNet50相同,由宽度(channels)为64的bottleneck组成,然后接一个3 ∗ 3 333∗3的卷积将特征的宽度映射到C。第2,3,4阶段分别包含了1、4、3个exchange blocks。每一个交换模块包含4个残差单元,每个残差单元包含2个3 ∗ 3 333∗3的卷积在每个分辨率上。最后一共有8个交换单元,即8个多尺度融合。
        在这里插入图片描述
        在这里插入图片描述
    • 约束:
      • HRNet的训练不使用中间监督。
      • Heatmap的产生来自于最后一个融合的高分辨率特征中,直接进行回归。
      • 使用标准差为1的2D高斯核作用于ground truth heatmap,用MSE进行监督。

性能

  • 在COCO数据集的 关键点检测、姿态估计、多人姿态估计 这三项任务里,超越了所有前辈。
  • HRNet是公认的效果好的大网络,常用于线上刷库。但是实际的端侧姿态估计还是用那种最普通的。
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-09-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 创新点
  • 性能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档