前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式

CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式

作者头像
集智书童公众号
发布于 2023-09-04 02:34:43
发布于 2023-09-04 02:34:43
1.4K0
举报
文章被收录于专栏:集智书童集智书童

作者丨西湖大学 李子青实验室(Stan Z. Li)整理丨小书童

本文首发于「集智书童」,白名单账号转载请自觉植入本公众号名片并注明来源非白名单账号请先申请权限,违者必究。

本文被CVPR官方评选为Highlight,录用率仅为2.57%

1、导读

  • 该方法适配性强,目前已被作者应用到了多个领域,例如蛋白质设计、计算免疫学等应用领域。请持续关注西湖大学李子青(Stan Z. Li)组的AI for Science相关工作。
  • 基于本文的手语识别(Sign Language Recognition, SLR)方法,或可推广应用于手语翻译(Sign Language Translation,SLT)任务。
  • 本文作者还整理和公开了一系列AI手语研究的论文集合,方便感兴趣的读者以全面了解和入门该领域。见文末参考链接。

2、文章概要

图1:手语识别旨在将手语视频(sign language videos)转换为手语词汇(sign language glosses)

手语识别(Sign Language Recognition, SLR)是一项弱监督的多模态学习任务,它将手语视频注释为文本词汇。最近的研究表明,由于缺乏大规模可用的手语数据集而导致的训练不足成为SLR的主要瓶颈。因此,大多数SLR工作采用了预训练的视觉模块,并开发了两种主流解决方案:1)多流架构扩展了多线索的视觉特征,产生了目前的SOTA性能,但需要复杂的设计,并可能引入潜在的噪音;2)先进的单线索SLR框架在视觉和文本模态之间使用显式的跨模态对齐,简单而有效,有潜力与多线索框架竞争。在这项工作中,作者为SLR提出了一种新的对比性的视觉-文本转换(Contrastive Visual-Textual Transformation, CVT),即CVT-SLR,以充分发掘视觉和语言模态的预训练知识。基于单线索跨模态对齐框架,我们为预训练的语境知识提出了一个变分自编码器(variational Autoencoder, VAE),同时引入完整的预训练语言模块。VAE隐含了视觉和文本模式的对齐,同时受益于预训练的语境知识。同时,设计了一个对比性的跨模态对齐算法,以显式地加强一致性约束。在公共数据集(PHOENIX-2014和PHOENIX-2014T)上进行的大量实验表明,作者提出的CVT-SLR不仅优于现有的单线索方法,甚至优于SOTA多线索方法。

3、Introduction

图2:(a) 先前先进的单线索SLR框架,带有显式的跨模态对齐;(b) 本文提出的单线索SLR框架,带有显式的跨模态对齐和隐式自编码器对齐

作为一种特殊的视觉自然语言,手语是聋人群体的主要交流媒介。随着深度学习的发展,SLR作为一项多模态学习任务出现,旨在将手语视频注释成文本手语词汇。然而,SLR的一个窘境是缺乏公开可用的手语数据集。例如,最常用的PHOENIX-2014和PHOENIX-2014T数据集只包括大约10K对手语视频和词汇注释,这远远不能像典型的视觉-语言跨模态任务那样训练一个具有完全监督的SLR系统。因此,容易导致训练不足或过度拟合问题的数据限制是SLR任务的主要瓶颈。

弱监督SLR的发展见证了大部分的改进工作都集中在视觉模块(如CNN)上。从人类动作识别的通用领域转移预训练的视觉网络,成为缓解低资源限制的共识。主流的多流SLR框架用多线索视觉信息扩展了预训练的视觉模块,包括全局特征和独立流中的手和脸等区域特征。这种方法的理论支持来自手语语言学,手语利用多种互补的渠道(如手形、面部表情)来传达信息。多线索机制本质上是利用了对关键信息的硬性关注,产生了目前的SOTA性能。然而,多线索框架很复杂(例如,裁剪多个区域,需要更多的参数),而且多个数据流的融合可能会引入额外的潜在噪声。

另一个主流的先进解决方案是单线索跨模态对齐框架,它包括一个预训练的视觉模块,然后是一个上下文模块(如RNN,LSTM,Transformer)和一个基于连接主义时间分类(CTC)的对齐模块,用于生成手语词汇,如图2(a)所示。显示的跨模态对齐约束进一步改善了特征的相互作用,这可以被视为两种不同模态之间的一种一致性,促进视觉模块从上下文模块学习长期时间信息。跨模态对齐框架简单而有效,有潜力与多线索框架竞争。尽管带有预训练视觉模块的复杂多线索架构性能更先进,但跨模态一致性是一个更优雅的设计,适合实际使用。它还意味着先前的上下文语言知识的潜力,这一点被现有的SLR工作所忽视。

在这项工作中,作者提出了一个新颖的SLR的对比性视觉-文本转换框架,称为CVT-SLR,以充分发掘视觉和语言模态的预训练知识,如图2(b)所示。基于单线索跨模态对齐框架,CVT-SLR保留了预训练的视觉模块,但用一个VAE取代了传统的上下文模块。由于使用了完整的编码器-解码器架构,VAE负责学习基于伪翻译任务的预训练语境知识,同时引入完整的预训练语言模块。此外,由于自编码器的形式,VAE保持了输入和输出模式的一致性,起到了隐性的跨模态对齐作用。此外,受对比学习的启发,还引入了一种对比对齐算法,该算法专注于正反两方面的样本,以加强显式的跨模态一致性约束。

在公共数据集PHOENIX-2014和PHOENIX-2014T上进行的广泛的定量实验证明了所提出的CVT-SLR框架的先进性。通过消减研究和定性分析,进一步验证了引入预训练的语言知识和新的一致性约束机制的有效性。

本文的主要贡献如下:

  • 提出了一个新颖的基于视觉-文本转换的SLR框架,它首次引入了完全预训练的语言知识,并为其他跨模态任务提供了新的思路。
  • 围绕跨模态一致性约束提出了新的对齐方法:a)利用自编码器的特殊属性,隐含地对齐视觉和文本模态;b)引入显式的对比性跨模态对齐方法。
  • 提出的单线索CVT-SLR框架不仅大幅度超过了现有的单线索基线,甚至超过了SOTA的多线索基线。

4、Methods

图3:CVT-SLR训练管线的示意图

本文提出为CVT-SLR的新颖架构,用于解决手语识别(SLR)任务,并充分利用视觉和语言模态的预训练知识。CVT-SLR框架的训练管线可以分为两个主要步骤,如图3所示。

第一步是通过变分自编码器(Variational Autoencoder,VAE)网络对文本模态进行预训练。VAE采用了完整的编码器-解码器架构,并通过无监督的方式构建了预训练的语境知识。由于自编码器的特殊形式,VAE能够保持输入和输出模态之间的一致性,从而实现隐性的跨模态对齐。这样的预训练过程引入了完整的预训练语言知识,并为后续任务提供了有用的先验信息。

第二步是将现有的视觉模块(通常是在Kinetics/ImageNet上训练而来的公开可用的CNN)和来自第一步预训练的文本模块转移到CVT-SLR框架中。为了实现这种迁移,作者引入了一个称为Video-Gloss Adapter的桥接模块,它本质上是一个多层感知机(MLP)层,用于将两个不同模态的预训练模块连接起来。此外,受先前跨模态学习和对比学习的启发,作者设计了一种内部跨层的跨模态对比对齐算法,其专注于正、负样本的构造,以显式地加强两个模态编码器的一致性约束,如图3中的Contrastive Alignment Loss所示。

5、主实验

图4:(主实验)CVT-SLR和基线模型在PHOENIX-2014数据集上的比较结果

WER和DEL/INS指标越低越好。每组的最佳结果和SOTA基线分别被标记为粗体和下划线。

图4展示了CVT-SLR和基线模型的在流行的SLR数据集PHOENIX-2014上进行主要实验比较。实验结果表明,CVT-SLR不仅优于现有的其他单线索(输入仅手语视频)基线方法,甚至优于多线索(输入包括视频和其他辅助信息)的最先进方法。这一结果验证了在多模态框架中有效引入先验的源端和目标端模态知识能够改善跨模态任务的性能。

6、实例和可视化分析

图5:在PHOENIX-2014测试集上的四个例子,从左到右依次为跨模态对齐矩阵(左)、显著图(中)和生成的词汇(右)

此外,作者还展示了四个可视化分析例子,如图5所示,每个例子都显示了对齐矩阵、一系列的显著图,以及图中生成的词汇。对齐矩阵显示了视觉和文本特征之间的对齐关系,而显著图显示了专注于手势的最高激活区域。

7、拓展延伸:AI手语研究

AI手语识别或翻译研究是视觉语言(CV)和文本语言(NLP)结合最“无违和感”的跨模态学习案例之一,具有十分重要的科研意义和实际应用的社会价值。目前缺少大规模供研究所需的数据集,更是缺少实用级别的数据,因此,AI手语任重道远。另外,手语跟口语一样,是有区域性方言的,不同国家的手语是不一样的,且同一个国家不同地区的手语也不同。目前对中国手语的研究也是甚少。

如果你是AI手语领域感兴趣或者初学者,推荐阅读作者整理的论文集,对于入门或深入理解AI手语领域很有帮助:https://github.com/binbinjiang/SL_Papers.

8、参考

[1].论文链接:CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment https://arxiv.org/abs/2303.05725

[2].代码链接:https://github.com/binbinjiang/CVT-SLR

[3].AI手语论文集合链接:https://github.com/binbinjiang/SL_Papers

9、推荐阅读

多传感器感知原理解读 | BEVFusion解读(二)

架构设计新范式!RevCol:可逆的多 column 网络式,已被ICLR 2023接收

即插即用 | Lite-FPN让CenterNet系列再涨4个点(3D检测也适用)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。
zenRRan
2023/01/07
7780
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作
Zipper: 一种融合多种模态的多塔解码器架构
仅解码器的生成模型在文本、蛋白质、音频、图像和状态序列等多种模态中已经展示了它们能够通过下一个Token预测生成有用的表示,并成功生成新序列。然而,由于世界本质上是多模态的,最近的研究尝试创建能够同时在多个模态中生成输出的多模态模型。这通常通过在预训练或后续微调阶段进行某种形式的词汇扩展(将多模态表示转换为离散标记并将其添加到模型的基本词汇表中)来实现。虽然多模态预训练具有强大的性能优势,但也存在一些问题,如添加新模态后需要从头训练新的模型,并进行超参数搜索,以确定各模态之间的最佳训练数据比例,这使得这种解决方案不适合较小的模态。另一种方法是在预训练后进行词汇扩展,将未见过该模态的模型微调到该模态,但这会破坏原有模型的强大能力,仅能执行微调后的跨模态任务。
用户1324186
2024/06/13
2070
Zipper: 一种融合多种模态的多塔解码器架构
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
动物的生物智能系统通过整合不同方式的信息并同时处理各种任务来感知世界。相比之下,当前的机器学习研究遵循特定于任务的范式,导致任务之间的协作效率低下,并且为新任务开发感知模型的边际成本较高。在本文中,作者提出了一种名为Uni-Perceiver的通用感知结构,该结构使用统一的建模和共享参数来处理各种模态和任务。
CV君
2021/12/27
9280
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。
ShuYini
2024/05/28
1.5K0
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
港科大开源VideoVAE+,视频重建质量全面超越最新模型
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。
机器之心
2025/02/03
700
港科大开源VideoVAE+,视频重建质量全面超越最新模型
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。
机器之心
2024/04/26
3840
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
Vx2Text-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务
在本文中,作者提出了VX2TEXT,一个用于从“视频+X”(X代表文本、语音或音频等)的多模态输入来生成文本 的框架。为了利用Transformer网络,每个模态首先由可学习的 tokenizer转换为一组语言embedding。
CV君
2021/09/03
4350
加速2-3倍,哈工大|提出多模态大模型自适应剪枝算法:SmartTrim
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。
ShuYini
2024/03/25
7330
加速2-3倍,哈工大|提出多模态大模型自适应剪枝算法:SmartTrim
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。
CV君
2024/04/25
2.1K0
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
尽管最近在理解和响应复杂视觉文本上下文中实现了大规模视觉语言模型(LVLMs)的突破,但它们固有的假象倾向限制了在需要高精度实际场景中的实际应用。
AIGC 先锋科技
2025/01/07
1300
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
多模态大模型技术原理与实战(4)
以 CNN 为图像编码器,以 RNN为文本解码器,编码器和解码器之间依靠图像的隐状态连接
顾翔
2024/09/10
1390
多模态大模型技术原理与实战(4)
AAAI 2018 | 中科大提出新型连续手语识别框架LS-HAN,帮助「听」懂听障人士
选自arXiv 作者:Jie Huang、 Wengang Zhou、Qilin Zhang、Houqiang Li、Weiping Li 机器之心编译 参与:路雪、李亚洲 中科大一篇关于手语识别的论文被 AAAI 2018 接收。该论文提出一种新型连续手语识别框架 LS-HAN,无需时间分割。LS-HAN 由三部分构成:用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。实验结果表明该框架有效。 手语识别(SLR)面临的一个重要挑战是设计能够捕捉人体动作
机器之心
2018/05/10
1.8K0
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
作者:金克丝 (在读博士) 方向:多模态学习 学校:南京理工大学 「收录情况」:CVPR-2022 「论文链接」:https://arxiv.org/abs/2112.03857 「代码链接」:https://github.com/microsoft/GLIP 问题 方案 主要贡献 Grounded Language Image Pre-training a、Unified Formulation b、Language-Aware Deep Fusion c、Pre-training with Scala
zenRRan
2022/10/10
3.2K0
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
本文分享论文『Align and Prompt: Video-and-Language Pre-training with Entity Prompts』,由 Salesforce&ANU 提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
CV君
2022/01/20
9750
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
编译丨Jocelyn 编辑丨陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设计用于不同的任务。第二个时代是2019-2021年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着2021年CLIP的出现,第三个时代开始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。 我们相信这
AI科技评论
2022/03/31
6610
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能 !
尽管以前的方法在某些数据集上展示了进展,但它们大多数依赖于高度定制的网络结构,缺乏普遍性。这种特定性需要大量的修改或完全重新设计,以适应新的或不同的布局设计挑战。认识到这一局限性,作者开发了一个名为PosterLAVa的统一框架(见图1),用于布局生成任务,该框架受到了最近发布的多模态指令调优方法的简单性和有效性的启发。通过大量 未标注 语料库的预训练和根据指令跟随数据的微调,多模态大型语言模型(MLIMs)能够根据给定的指令及其背景知识处理多个视觉-语言任务(例如,视觉问答(VQA)(Wang et al., 2019; Wang et al., 2019),视觉定位。
AIGC 先锋科技
2024/07/08
4230
香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能 !
邓力、何晓冬深度解读:多模态智能未来的研究热点
基于深度学习的机器学习方法已经在语音、文本、图像等单一模态领域取得了巨大的成功,而同时涉及到多种输入模态的多模态机器学习研究有巨大的应用前景和广泛的研究价值,成为了近年来的研究热点。
AI科技评论
2020/06/17
2.1K0
邓力、何晓冬深度解读:多模态智能未来的研究热点
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.4K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
每日学术速递5.21
1.Going Denser with Open-Vocabulary Part Segmenta
AiCharm
2023/06/07
2350
每日学术速递5.21
推荐阅读
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作
7780
Zipper: 一种融合多种模态的多塔解码器架构
2070
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
9280
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
1.5K0
港科大开源VideoVAE+,视频重建质量全面超越最新模型
700
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
3840
Vx2Text-多模态任务新进展!哥大&Facebook提出VX2TEXT模型,实现了“视频+X”到“文本”的任务
4350
加速2-3倍,哈工大|提出多模态大模型自适应剪枝算法:SmartTrim
7330
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
2.1K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.6K0
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
1300
多模态大模型技术原理与实战(4)
1390
AAAI 2018 | 中科大提出新型连续手语识别框架LS-HAN,帮助「听」懂听障人士
1.8K0
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
3.2K0
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
9750
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
6610
香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能 !
4230
邓力、何晓冬深度解读:多模态智能未来的研究热点
2.1K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.4K1
每日学术速递5.21
2350
相关推荐
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档