前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【源头活水】顶刊解读!IEEE T-PAMI (CCF-A,IF 23.6)2024年46卷第一期 [2]

【源头活水】顶刊解读!IEEE T-PAMI (CCF-A,IF 23.6)2024年46卷第一期 [2]

作者头像
马上科普尚尚
发布2024-03-27 12:55:25
1110
发布2024-03-27 12:55:25
举报

Volume 46, Number 1, January 2024,46卷第一期,第二部分11-20

时序建模、连续流形学习、对称正定矩阵

11. S. Jeong, W. Ko, A. W. Mulyadi and H. -I. Suk, "Deep Efficient Continuous Manifold Learning for Time Series Modeling," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 171-184, Jan. 2024,

doi: 10.1109/TPAMI.2023.3320125.

关键词:时序建模、连续流形学习、对称正定矩阵

随着深度神经网络在不同领域取得前所未有的成功,非欧几里得数据建模正引起广泛关注。特别是对称正定矩阵,由于其学习有益统计表征的能力,在计算机视觉、信号处理和医学图像分析领域正被积极研究。然而,由于对称正定矩阵具有刚性约束,它仍然对优化问题和低效计算成本具有挑战性,尤其是在将其与深度学习框架相结合时。在本文中,我们提出了一种利用黎曼流形和乔尔斯基空间之间的差分映射的框架,通过这种框架,不仅可以高效地解决优化问题,还能大大降低计算成本。此外,针对时间序列数据的动态建模,我们通过系统整合流形常微分方程和门控递归神经网络,设计了一种连续流形学习方法。值得注意的是,由于矩阵在 Cholesky 空间中的良好参数化,我们提出的配备黎曼几何度量的网络训练非常简单。我们通过对规则和不规则时间序列数据集的实验证明,我们提出的模型可以得到高效可靠的训练,并且在各种时间序列任务中优于现有的流形方法和最先进的方法。

下图为系统架构图:

场景流综述、2D图像到3D点云

12. X. Xiang, R. Abdein, W. Li and A. E. Saddik, "Deep Scene Flow Learning: From 2D Images to 3D Point Clouds," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 185-208, Jan. 2024,

doi: 10.1109/TPAMI.2023.3319448.

关键词:场景流综述、2D图像到3D点云

场景流(Scene Flow)描述了场景中的三维运动。它可以被建模为一个单独的任务,也可以被建模为深度、摄像机运动和光流估计等辅助任务的综合体。近年来,深度学习的兴起拓宽了估计这些任务的新方法的视野,既可以将其作为单独任务,也可以将其作为联合任务来重建场景流。这些方法的输入是由相机合成或捕捉的图像序列,这些方法面临的挑战是如何处理图像中的各种情况,以提供最精确的运动,例如图像质量。如今,点云已经取代了图像,点云提供了三维信息,从而加快并增强了运动估计的速度。在本文中,我们将深入探讨深度学习时代的场景流估计。我们全面概述了基于图像和基于点云的方法的重要进展。此外,我们还介绍了每个类别的方法,重点介绍了网络架构的发展。此外,我们还对这些方法的性能和效率进行了比较。最后,我们还讨论了未解决的问题和未来研究方向。

下图为系统架构图:

少样本学习、自监督学习、快速概念映射

13. V. Clay, G. Pipa, K. -U. Kühnberger and P. König, "Development of Few-Shot Learning Capabilities in Artificial Neural Networks When Learning Through Self-Supervised Interaction," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 209-219, Jan. 2024,

doi: 10.1109/TPAMI.2023.3323040.

关键词:少样本学习、自监督学习、快速概念映射

大多数用于对象识别的人工神经网络都是在完全监督的设置中训练的。这不仅消耗资源,因为它需要大量标记示例的数据集,而且与人类的学习方式也大不相同。我们使用了一种设置,其中人工代理首先通过自我监督,好奇心驱动的探索在模拟世界中学习。在这个初始学习阶段之后,可以使用学习到的表示来快速关联语义概念,例如使用一个或多个标记示例来关联不同类型的门。为了做到这一点,我们使用了一种称为快速概念映射的方法,该方法使用神经元的相关放电模式来定义和检测语义概念。仅需要很少有标记的例子,这种关联就会立即起作用,类似于我们在人类身上观察到的一种被称为快速映射的现象。引人注目的是,我们已经可以通过一个标记的例子来识别物体,这突出了通过与世界的互动来学习自我监督进行编码的表示质量。因此,它提出了一种可行的策略,可以在没有太多监督的情况下学习概念,并表明通过纯交互可以学习环境的有意义的表示,这比非交互方法更适合少样本的学习。

下图为系统架构图:

图像语义分割、域适应、域泛化、网络结构和训练策略

14. L. Hoyer, D. Dai and L. Van Gool, "Domain Adaptive and Generalizable Network Architectures and Training Strategies for Semantic Image Segmentation," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 220-235, Jan. 2024,

doi: 10.1109/TPAMI.2023.3320613.

关键词:图像语义分割、域适应、域泛化、网络结构和训练策略

无监督域适应(UDA)和域泛化(DG)使在源域上训练的机器学习模型在未标记甚至未见过的目标域上表现良好。由于以前的UDA&DG语义分割方法大多基于过时的网络,本文对最新的架构进行了基准测试,揭示了Transformer的潜力,并设计了为UDA&DG量身定制的DAFormer网络。它由三种训练策略实现,以避免对源域的过拟合:而(1)稀有类采样减轻了对公共源域类的偏差,(2)物类ImageNet特征距离和(3)学习率预热促进了ImageNet预训练的特征迁移。由于UDA&DG通常是GPU内存密集型的,因此之前的大多数方法都对图像进行了缩放或裁剪。然而,低分辨率的预测往往不能保留精细的细节,而用裁剪的图像训练的模型在捕捉长程的、域鲁棒的上下文信息方面不足。因此,本文提出了HRDA,一种UDA&DG的多分辨率框架,结合了小型高分辨率裁剪块的优势,以保留精细的分割细节,以及大型低分辨率裁剪块的优势,以学习尺度注意力捕捉长程上下文依赖关系。DAFormer和HRDA在5个不同的基准上显著提高了最先进的UDA&DG超过10 mIoU。

引注:本文作者之一Luc Van Gool教授现为比利时荷语天主教鲁汶大学教授,瑞士苏黎世联邦理工学院教授,计算机视觉实验室主任,1998 年获马尔奖。他在 SIFT 算法的基础上,开发出了更加先进的 SURF 算法(speed up robust feature)。他的研究兴趣主要包括三维重建和建模、物体识别、跟踪和手势分析。他是多个主要计算机视觉会议的程序委员会成员。他曾多次获得最佳论文奖。他是五家孵化公司的共同创始人之一。

下图为系统架构图:

图像特征点匹配、两级分辨率特征图、邻域共识约束

15. X. Li, K. Han, S. Li and V. Prisacariu, "DualRC: A Dual-Resolution Learning Framework With Neighbourhood Consensus for Visual Correspondences," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 236-249, Jan. 2024,

doi: 10.1109/TPAMI.2023.3316770.

关键词:图像特征点匹配、两级分辨率特征图、邻域共识约束

我们要解决的问题是在两幅图像之间建立精确的对应关系。我们提出了一个灵活的框架,可以轻松适应几何和语义匹配。我们的贡献包括三个部分。首先,我们提出了一个端到端的可训练框架,该框架使用从粗到细的匹配策略来精确查找对应关系。我们生成两级分辨率的特征图,通过四维卷积对粗特征图执行邻域共识约束,并使用由此产生的相关图来调节细特征图的匹配。其次,我们提出了三种侧重点不同的模型变体。即:一种名为 DualRC 的通用对应模型,同时适用于几何和语义匹配;一种名为 DualRC-L 的高效模型,专为几何匹配量身定制,带有轻量级邻域共识模块,可显著加快高分辨率输入图像的管道速度;以及 DualRC-D 模型,其中我们提出了一种新颖的动态自适应邻域共识模块 (DyANC),可动态选择最合适的非各向同性 4D 卷积核,并具有适当的邻域大小,以考虑尺度变化。最后,我们对几何匹配和语义匹配的公共基准进行了全面实验,结果显示这两种情况下的性能都非常优越。

下图为系统架构图:

密集预测、大规模Transformer模型、Token聚合和重建

16. Y. Yuan, W. Liang, H. Ding, Z. Liang, C. Zhang and H. Hu, "Expediting Large-Scale Vision Transformer for Dense Prediction Without Fine-Tuning," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 250-266, Jan. 2024, doi: 10.1109/TPAMI.2023.3327511.

关键词:密集预测、大规模Transformer模型、Token聚合和重建

在各种密集预测任务中,大规模视觉Transformer模型虽然需要昂贵的计算,但却达到了最先进的性能。与大多数加速图像分类视觉Transformer模型的现有方法不同,我们专注于加速密集预测(dense prediction)型任务的视觉Transformer,而不做任何微调。我们提出了两个专门用于密集预测任务的非参数运算器,一个是Token聚类层,用于减少Token数量以加快速度,另一个是Token重建层,用于增加Token数量以恢复高分辨率。为了实现这一目标,需要采取以下步骤:i) 使用Token聚类层对相邻标记进行聚类,生成具有空间结构的低分辨率表示;ii) 仅对这些聚类的低分辨率Token执行随后的Transformer层;iii) 使用Token重构层从精细优化过的低分辨率表示重建高分辨率表示。所提出的方法在 6 项密集预测任务(包括物体检测、语义分割、全视角分割、实例分割、深度估计和视频实例分割)中均显示出良好的效果。此外,我们还在最近最先进的开放词汇识别方法上验证了所提方法的有效性。此外,我们还在密集预测任务上对一些最新的代表性方法进行了基准测试和比较。

下图为系统架构图:

自动驾驶、类脑学习、杏仁核防御反应、强化学习

17. X. He et al., "Fear-Neuro-Inspired Reinforcement Learning for Safe Autonomous Driving," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 267-279, Jan. 2024,

doi: 10.1109/TPAMI.2023.3322426.

关键词:自动驾驶、类脑学习、杏仁核防御反应、强化学习

确保安全和实现人类水平的驾驶性能仍然是自动驾驶汽车面临的挑战,尤其是在安全至关重要的情况下。作为人工智能的重要组成部分,强化学习前景广阔,在许多复杂任务中都显示出巨大潜力;然而,强化学习缺乏安全保障,限制了其在现实世界中的应用。因此,进一步推进强化学习,尤其是从安全角度推进强化学习,对自动驾驶具有重要意义。认知神经科学家发现,大脑杏仁核可以对威胁或危险做出防御反应,这对于在危险环境中生存和适应环境至关重要。从这一科学发现中汲取灵感,我们提出了一种受恐惧神经启发的强化学习框架,通过模拟杏仁核功能来实现安全的自动驾驶。这种新技术有助于驾驶员学习防御行为,并在减少违反安全规定的情况下做出安全决策。通过实验测试,我们表明,与基线代理相比,所提出的方法使自动驾驶代理达到了最先进的性能,在各种安全关键场景中的表现可与 30 名经过认证的人类驾驶员相媲美。这些结果证明了我们框架的可行性和有效性,同时也揭示了模拟杏仁核功能在强化学习应用于安全关键型自动驾驶领域中的关键作用

下图为系统架构图:

基于交叉验证的共形预测、元学习

18. S. Park, K. M. Cohen and O. Simeone, "Few-Shot Calibration of Set Predictors via Meta-Learned Cross-Validation-Based Conformal Prediction," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 280-291, Jan. 2024, doi: 10.1109/TPAMI.2023.3327300.

关键词:基于交叉验证的共形预测、元学习

众所周知,传统的频数学习会产生校准不佳的模型,无法可靠地量化决策的不确定性。贝叶斯学习可以改善校准效果,但只有在关于模型规范正确性的限制性假设条件下才能获得正式保证。共形预测(CP)为设计具有校准保证的集合预测器提供了一个通用框架,这种保证与底层数据生成机制无关。然而,当训练数据有限时,共形预测往往会产生较大的预测集,因此信息量不大。本文介绍了一种新颖的元学习解决方案,旨在减少预测集的大小。与之前的工作不同,本文提出的元学习方案(简称为 meta-XB):i)基于交叉验证的 CP,而不是效率较低的基于验证的 CP;ii)保留正式的每项任务校准保证,而不是不太严格的任务边际保证。最后,meta-XB 扩展到自适应非共形分数,经验表明,自适应非共形分数可进一步增强边际单位输入校准

引文:共形预测(conformal prediction,一种用于无分布的不确定性量化机器学习框架),是一个量化机器学习分类器(包括深度神经网络)不确定性的框架。

下图为系统架构图:

电影预告片制作、任务分解、图模型和对比学习、无监督

19. P. Papalampidi, F. Keller and M. Lapata, "Finding the Right Moment: Human-Assisted Trailer Creation via Task Composition," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 292-304, Jan. 2024,

doi: 10.1109/TPAMI.2023.3323030.

关键词:电影预告片制作、任务分解、图模型和对比学习、无监督

电影预告片具有多种功能:向观众介绍故事情节,传达电影的情绪和艺术风格,鼓励观众观看电影。这些不同的功能使得预告片的制作成为一项具有挑战性的工作。在这项工作中,我们专注于寻找电影中的预告片瞬间,即有可能包含在预告片中的镜头。我们将这项任务分解为两个子任务:叙事结构识别和情感预测。我们将电影建模为图其中节点表示镜头,边表示镜头之间的语义关系。我们通过联合对比训练来学习这些关系,这种训练从剧本中提炼出丰富的文本信息(如人物、动作、情境)。然后,一种无监督算法会遍历该图,并从电影中选择出人类评委更喜欢的预告片片段,而不是竞争性监督方法所选择的片段。我们算法的一个主要优势是它采用了可解释的标准,这使我们能够将其部署到一个互动工具中,以便在有人类参与的情况下制作预告片。我们的工具能让用户在 30 分钟内选择出优于全自动方法的预告片镜头,并与仅有专家参与的人工选择相媲美。

下图为系统架构图:

子图挖掘、时态网络、频繁模式挖掘

20. A. Jazayeri and C. C. Yang, "Frequent Pattern Mining in Continuous-Time Temporal Networks," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 305-321, Jan. 2024,

doi: 10.1109/TPAMI.2023.3324799.

关键词:子图挖掘、时态网络、频繁模式挖掘

网络在不同学科中都被用作极具表现力的工具。近年来,时态网络的分析和挖掘引起了广泛关注。频繁模式挖掘被认为是网络科学文献中的一项基本任务。除了大量应用之外,网络中频繁模式挖掘的研究还直接影响到其他分析方法,如聚类、准团和团挖掘以及链接预测。几乎所有针对时态网络中频繁模式挖掘提出的算法都将网络表示为静态网络序列。然后,挖掘网络间或网络内的模式。这种表示方式会对挖掘问题造成计算量与执行量的权衡。在本文中,我们提出了一种新的表示方法,它可以无损地保留网络的时间方面。然后,我们引入了约束区间图(CIGs)的概念。接下来,我们开发了一系列算法,用于挖掘时态网络数据集中的整套频繁时态模式。我们还考虑了四种不同的同构定义,以适应网络时间数据的微小变化。针对三个真实世界数据集实施的算法证明了所提方法的实用性及其在各种环境下发现未知模式的能力

下图为系统架构图:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档