前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【源头活水】顶刊解读!IEEE T-PAMI (CCF-A,IF 23.6)2024年46卷第一期

【源头活水】顶刊解读!IEEE T-PAMI (CCF-A,IF 23.6)2024年46卷第一期

作者头像
马上科普尚尚
发布2024-04-13 20:17:17
1150
发布2024-04-13 20:17:17
举报

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!

Volume 46, Number 1, January 2024,46卷第一期,37-42 (本期完结)

人脸身份编辑、条件动态卷积、变形知识蒸馏

37. X. Chen, B. Ni, Y. Liu, N. Liu, Z. Zeng and H. Wang, "SimSwap++: Towards Faster and High-Quality Identity Swapping," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 576-592, Jan. 2024, doi: 10.1109/TPAMI.2023.3307156.

人脸身份编辑、条件动态卷积、变形知识蒸馏

人脸身份编辑(Face identity editing, FIE)在人工智能内容创作中具有重要价值。低分辨率的FIE方法已经取得了巨大的进步,但高质量的FIE仍难以取得很好的效果。两大挑战阻碍了FIE的高分辨率和高性能发展,即缺乏高分辨率数据集和移动平台不可接受的复杂性。为了解决这两个问题,本文建立了一个新的大规模、高质量的数据集,为FIE任务量身定制。在SimSwap (Chen et al. 2020)的基础上,提出了一个名为SimSwap++的升级版本,显著提高了模型效率。SimSwap++在高性能模型压缩方面有两个主要创新。首先,提出了一种新的计算基础模块——条件动态卷积(Conditional Dynamic conv, CD-Conv),以解决条件模式(如AdaIN)在微小模型中的低效问题。CD-Conv实现了各向异性的处理和注入,与调制卷积等标准条件算子相比,其复杂度明显降低。其次,提出一种可变形知识蒸馏(MKD)来进一步修剪整个模型。与传统的同构师生结构不同,MKD被设计为异构和相互补偿的,使学生具有多路径可变形特性;因此,我们的学生在蒸馏后最大限度地继承了老师的知识,同时通过结构重新参数化进一步降低了其复杂性。广泛的实验表明,SimSwap++以极低的复杂度(2.5 GFLOPs)实现了最先进的性能(faceforensics++上97.55%的ID准确率)。

引文:本文的会议版本论文为SimSwap: An Efficient Framework For High Fidelity Face Swapping,

开源地址为https://github.com/neuralchen/SimSwap

视觉SLAM、文本对像的几何和语义先验

38. B. Li, D. Zou, Y. Huang, X. Niu, L. Pei and W. Yu, "TextSLAM: Visual SLAM With Semantic Planar Text Features," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 593-610, Jan. 2024, doi: 10.1109/TPAMI.2023.3324320.

视觉SLAM、文本对像的几何和语义先验

本文提出一种新的视觉SLAM方法,通过充分探索文本对象的几何和语义先验,将其视为语义特征,从而紧密集成文本对象。将文本对象建模为一个富含纹理的平面块,对其语义进行实时提取和更新,以便更好地进行数据关联。随着对文本对象局部平面特征和语义含义的充分探索,即使在图像模糊、大视点变化和显著的光照变化(白夜)等挑战性条件下,SLAM系统也变得更加准确和鲁棒。我们使用真实数据在各种场景中测试了我们的方法。实验结果表明,融合纹理特征的SLAM系统可以实现昼夜图像匹配。重建的语义3D文本地图可用于机器人和混合现实应用中的导航和场景理解。

未知目标检测、分布外对象检测、双流信息瓶颈

39. A. Wu and C. Deng, "TIB: Detecting Unknown Objects via Two-Stream Information Bottleneck," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 611-625, Jan. 2024, doi: 10.1109/TPAMI.2023.3323523.

未知目标检测、分布外对象检测、双流信息瓶颈

检测不同的目标,包括在训练中从未见过的目标,对于目标检测器的安全应用至关重要。为此,提出一种无监督分布外目标检测(OOD-OD)任务,用于在不依赖辅助数据集的情况下检测未知目标。对于这项任务,重要的是减少缺乏未知数据对监督的影响,并利用分布内(ID)数据来提高模型的辨别能力。本文提出了一种双流信息瓶颈(Two-Stream Information Bottleneck, TIB)方法,它由一个标准IB和一个专用的反向信息瓶颈(Reverse Information Bottleneck, RIB)组成。在提取分布内图像特征后,首先定义了一个标准IB网络来解缠实例表示,以帮助定位和识别目标;同时,为了缓解未知数据缺失的影响,提出了一种基于RIB的分布外模拟特征获取方法。与标准IB旨在提取与任务相关的紧凑表示不同,RIB通过反转标准IB的优化目标来获取与任务无关的紧凑表示。在OOD-OD、开放词汇表目标检测、增量目标检测和开放集目标检测上的实验结果表明了该方法的优越性。

图像检索、特征压缩、深度概率量化方法

40. M. Wang, W. Zhou, X. Yao, Q. Tian and H. Li, "Towards Codebook-Free Deep Probabilistic Quantization for Image Retrieval," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 626-640, Jan. 2024, doi: 10.1109/TPAMI.2023.3324021.

图像检索、特征压缩、深度概率量化方法

作为一种经典的特征压缩技术,量化通常与倒排索引相结合以实现可扩展的图像检索。大多数量化方法显式地将特征空间划分为Voronoi单元,并将每个单元中的特征向量量化为从数据分布中学习到的质心。然而,在语义图像检索中,Voronoi分解难以实现具有判别力的空间划分。本文探索用深度神经网络代替Voronoi基元来划分语义感知特征空间。为此,提出一种新的深度概率量化方法DeepIndex,无需显式质心学习即可构建倒排索引。在我们的方法中,深度神经网络将图像作为输入,并输出其被放入每个倒排索引列表的概率。在训练过程中,我们逐步将每个图像量化为具有前T个最大概率的倒排列表,并根据检索精度计算每次尝试的奖励。我们优化深度神经网络,以最大化具有最大回报的倒排列表的概率。与其他量化方法相比,该方法直接优化了检索性能,得到了更具有语义区分性的空间划分。在公开图像数据集上的实验验证了DeepIndex方法在图像语义检索上的有效性。

最坏情况类分离、判别性特征学习

41. Z. Wang, F. Nie, C. Zhang, R. Wang and X. Li, "Worst-Case Discriminative Feature Learning via Max-Min Ratio Analysis," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 641-658, Jan. 2024, doi: 10.1109/TPAMI.2023.3323453.

最坏情况类分离、判别性特征学习、最大最小比率分析

本文提出一种基于最大最小比率分析(Max-Min Ratio Analysis, MMRA)的判别性特征学习方法,专门用于解决长期存在的"最坏情况类分离"问题。现有技术仅考虑最大化低维子空间中所有类对上的最小成对距离,无法将重叠类完全分离,特别是当同类样本分布不一致时。本文提出了一种新的准则,即最大最小比率分析(Max-Min Ratio Analysis, MMRA),其重点是最大化类间和类内散度的最小比率值,以极大地扩大重叠成对类的可分性。基于MMRA准则,提出了两种新的判别性特征学习模型,分别用于降维和度量学习。然而,求解这样一个非光滑非凸极大极小比问题具有挑战性。作为重要的理论贡献,本文系统地推导了一种基于通用最大最小比率优化框架的交替迭代算法,并证明了该算法的收敛性。更重要的是,本文还提出了另一种基于二分搜索策略的求解器,以高效地求解SDP问题。为了评估所提方法的有效性,在人工数据集和ScRNA-seq真实数据集上进行了广泛的模式分类和图像检索实验,实验结果验证了所提方法的有效性。

引文:本文作者之一西北工业大学李学龙教授,现为中国电信首席技术官(CTO)、首席科学家。西北工业大学教授,西北工业大学光电与智能研究院首席科学家,西北工业大学学术委员会副主任,国际欧亚科学院院士。

谱聚类、N-Cut求解器

42. F. Nie, J. Lu, D. Wu, R. Wang and X. Li, "A Novel Normalized-Cut Solver With Nearest Neighbor Hierarchical Initialization," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 659-666, Jan. 2024, doi: 10.1109/TPAMI.2023.3279394.

谱聚类、N-Cut求解器

Normalized-Cut (N-Cut) 是谱聚类的一个著名模型。传统的N-Cut求解器分为两个阶段:1)计算归一化Laplacian矩阵的连续谱嵌入;2)通过K均值或光谱旋转进行离散化。然而,这种范式带来了两个关键问题:1)两阶段方法求解原始问题的松弛版本,因此不能获得原始N-Cut问题的良好解;2)求解松弛问题需要进行特征值分解,其时间复杂度为O(n3) (n为节点数)。针对上述问题,基于坐标下降法设计了一种新颖的N-Cut求解器。由于原始坐标下降法的时间复杂度也是O(n3),因此设计了多种加速策略将时间复杂度降低到O(|e |) (|e |为边数)。为避免依赖随机初始化给聚类带来不确定性,提出一种有效的初始化方法,给出确定性的聚类结果。在多个基准数据集上的实验表明,与传统求解器相比,所提求解器可以获得更大的N-Cut目标值,同时实现更好的聚类性能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档