前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >计算机视觉最新进展概览(2021年8月8日到2021年8月14日)

计算机视觉最新进展概览(2021年8月8日到2021年8月14日)

作者头像
狼啸风云
修改2022-09-02 11:46:08
8180
修改2022-09-02 11:46:08
举报
文章被收录于专栏:计算机视觉理论及其实现

1、Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather

这项工作解决了雾天基于激光雷达的三维目标检测的挑战性任务。在这种情况下收集和注释数据是非常费时费力的。在本文中,我们通过将物理上精确的雾模拟到晴好天气场景中来解决这个问题,从而可以将晴好天气中捕获的大量现有真实数据集重新用于我们的任务。我们的贡献有两个方面:1)我们开发了一种适用于任何激光雷达数据集的物理上有效的雾模拟方法。这释放了大规模雾天训练数据的获取,无需额外成本。这些部分合成的数据可用于提高几种感知方法的鲁棒性,例如对真实雾天数据的3D目标检测和跟踪或同时定位和映射。2)通过使用几种最先进的检测方法的大量实验,我们表明,我们的雾模拟可以显著提高雾存在时的3D目标检测性能。因此,我们第一个在透视雾数据集上提供强有力的3D目标检测基线。

2、Video Transformer for Deepfake Detection with Incremental Learning

deepfake的脸部伪造在互联网上广泛传播,这引发了严重的社会担忧。 本文提出了一种新的基于增量学习的视频变压器,用于深度假视频的检测。 为了更好地对齐输入的人脸图像,我们使用3D人脸重建方法从单个输入的人脸图像生成UV纹理。 对齐后的人脸图像还可以提供UV纹理图像无法感知的姿势、眼睛眨眼和嘴巴运动信息,因此我们同时使用人脸图像和它们的UV纹理映射来提取图像特征。 我们提出了一种增量学习策略,在较小的数据量上对所提出的模型进行微调,从而获得更好的深度假检测性能。 在各种公开的深度假数据集上进行的综合实验表明,提出的增量学习视频转换器模型在基于增强特征学习的深度假视频检测任务中取得了最先进的性能。

3、Oriented R-CNN for Object Detection

当前最先进的两级检测器通过耗时的方案产生定向建议。这降低了检测器的速度,从而成为高级目标检测系统中的计算瓶颈。本文提出了一种简单有效的面向目标检测框架——Oriented R-CNN,它是一种通用的两级Oriented R-CNN检测器,具有很好的准确性和效率。具体来说,在第一阶段,我们提出了一个面向区域的提案网络(oriented Region proposition Network,简称RPN),它以几乎无成本的方式直接生成高质量的面向提案。第二阶段是oriented R-CNN识别头部,用于细化定向的感兴趣区域并识别它们。没有技巧,带有ResNet50的定向R-CNN在两个常用的定向目标检测数据集上实现了最先进的检测精度,包括DOTA (75.87% mAP)和HRSC2016 (96.50% mAP),同时在单个RTX 2080Ti上具有15.1 FPS的速度和1024×1024的图像大小。我们希望我们的工作能够启发人们重新思考面向检测器的设计,并作为面向目标检测的基准。

4、Unconditional Scene Graph Generation

尽管最近在单域或单目标图像生成方面取得了进展,但要生成包含不同、多个目标及其交互的复杂场景仍然具有挑战性。 场景图由节点作为目标和有向边作为目标之间的关系组成,提供了一种比图像更有语义基础的场景表示。 我们假设场景图生成模型能够比图像更有效地学习真实场景的底层语义结构,从而以场景图的形式生成真实的新场景。 在本研究中,我们探索了一个新的任务,即无条件生成语义场景图。 我们开发了一个称为SceneGraphGen的深度自回归模型,它可以使用层次递归结构直接学习标记图和有向图的概率分布。 该模型以种子目标象为输入,按步骤序列生成场景图,每一步生成一个目标节点,然后是连接到前一个节点的关系边序列。 我们证明了SceneGraphGen生成的场景图是多样化的,并遵循真实场景的语义模式。 此外,我们还演示了生成的图在图像合成、异常检测和场景图补全中的应用。

5、Multiview Detection with Shadow Transformer

多视角检测采用多个视角处理遮挡,其核心问题是多视角聚合。 给定从多个视图到一个公共地平面的特征地图投影,最先进的方法通过卷积来解决这个问题,无论物体位置如何,它都应用相同的计算。 然而,这种平移不变行为可能不是最好的选择,因为目标特征会根据其位置和摄像机经历不同的投影畸变。 在本文中,我们提出了一种新的多视图检测器,MVDeTr,它采用了一个新引入的阴影Transformer来聚合多视图信息。 不同于卷积,阴影Transformer在不同的位置和相机上有不同的处理方法来处理各种阴影变形。 我们提出了一种有效的训练方案,其中包括一种新的视图相干数据增强方法,该方法在保持多视图一致性的同时应用随机增强。 在两个多视点检测基准上,我们报告了新的最先进的精度与提出的系统。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/08/14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather
  • 2、Video Transformer for Deepfake Detection with Incremental Learning
  • 3、Oriented R-CNN for Object Detection
  • 4、Unconditional Scene Graph Generation
  • 5、Multiview Detection with Shadow Transformer
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档