整理:AI算法与图像处理
CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo
ECCV2022论文和代码整理:https://github.com/DWCTOD/ECCV2022-Papers-with-Code-Demo
标题:Inverted Pyramid Multi-task Transformer for Dense Scene Understanding
论文:https://arxiv.org/abs/2203.07997
主页:https://github.com/prismformore/InvPT
摘要:多任务密集场景理解是一个蓬勃发展的研究领域,需要对一系列相关任务同时进行感知和推理,并进行逐像素预测。由于卷积操作的大量使用,大多数现有工作在局部建模中遇到了严重的限制,而在全局空间位置和多任务上下文中学习交互和推理对于这个问题至关重要。在本文中,我们提出了一种新颖的端到端倒金字塔多任务 (InvPT) Transformer,以在统一的框架中执行空间位置和多个任务的同时建模。据我们所知,这是第一项探索设计用于多任务密集预测以进行场景理解的Transformer结构的工作。此外,广泛证明更高的空间分辨率对密集预测非常有利,而由于大空间尺寸的巨大复杂性,现有转换器以更高的分辨率更深是非常具有挑战性的。InvPT 提出了一个高效的 UP-Transformer 块,以逐渐增加的分辨率学习多任务特征交互,它还结合了有效的自注意消息传递和多尺度特征聚合,以产生高分辨率的特定于任务的预测。
DenseHybrid: Hybrid Anomaly Detection for Dense Open-set Recognition
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling
Dense Teacher: Dense Pseudo-Labels for Semi-supervised Object Detection
Self-Constrained Inference Optimization on Structural Groups for Human Pose Estimation
Domain Adaptive Video Segmentation via Temporal Pseudo Supervision
Weakly Supervised Grounding for VQA in Vision-Language Transformers
Towards Realistic Semi-Supervised Learning
OpenLDN: Learning to Discover Novel Classes for Open-World Semi-Supervised Learning
OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
Predicting is not Understanding: Recognizing and Addressing Underspecification in Machine Learning