在上一篇文章《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。
摘要:本篇从理论到实际讲解了实际项目中使用很多的SimBERT模型。首先介绍了业务使用背景,主要用SimBERT的相似文本生成和相似文本检索能力;然后详细介绍了SimBERT的原理,SimBERT是基于UniLM来完成文本生成任务,重点介绍了SimBERT的损失函数和训练流程;最后源码实践了SimBERT,通过广告文案生成模型实践了相似文本生成任务,并基于SimBERT+Faiss实践了相似文本检索任务。对于希望将SimBERT应用于实际项目中的小伙伴可能有所帮助。
现代视频文本检索框架主要由视频编码器 、文本编码器 和相似度head 三个部分组成。随着视觉表示学习和文本表示学习的成功,基于Transformer的编码器和融合方法也被应用于视频-文本检索领域。
视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。
随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课。用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注。然而,现有的跨模态Transformer方法通常受到两个限制:
最近在研究和部署使用 LangChain + LLM(ChatGPT/ChatGLM) 构建企业专有知识库时,接触到两个 embedding (嵌入)模型:text2vec,m3e-base。
本文分享一篇 SIGIR 2021 最佳学生论文『Dynamic Modality Interaction Modeling for Image-Text Retrieval』,图像文本检索的动态模态交互建模。
机器之心专栏 机器之心编辑部 近年来,互联网环境中的多媒体内容大量增加,如何通过视频文本相互检索,提升用户获取信息的效率,满足不同的用户对多媒体内容的消费需求变得异常重要。随着短视频内容社区的兴起,多媒体内容的创作门槛变低,UGC 内容成为主流,视频文本检索任务面临更加复杂和困难的挑战。本文针对视频文本检索任务提出层次化对比学习的跨模态检索思路,实现了更加高效且精准的视频文本检索方法,目前该论文已经被 ICCV2021 接收。 论文链接:https://arxiv.org/abs/2103.15049
本文总结CVPR 2020 中所有与图像和视频检索(Image and Video Retrieval)相关论文,总计 16 篇。
在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。
本次我挑选了ICLR2021中NLP领域下的六篇文章进行解读,包含了文本生成、自然语言理解、预训练语言模型训练和去偏、以及文本匹配和文本检索。从这些论文的思想中借鉴了一些idea用于公司自身的业务中,最终起到了一个不错的效果。
视频描述任务(Video Captioning),是指给定一段视频,根据视频生成一句客观反映视频内容的一句话。随着近几年短视频的持续发展,作为视觉 - 文本的跨模态生成式研究,视频描述受到了越来越多的关注。
本系列是机器学习课程的系列课程,主要介绍机器学习中图像文本检索技术。此技术把自然语言处理和图像处理进行了融合。
通常,从一种语言到另一种语言没有直接的一对一翻译。即使有这样的翻译,它们也不一定准确,对于非母语人士来说,不同的联想和内涵很容易丢失。但是,在这种情况下,如果是基于可视化的实例,其含义可能会更为清晰。
近日,谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型,该模型可为109种语言生成与语言无关的跨语言句子嵌入。
2021过去了,在过去的一年了出现了许多优秀的论文。其中,令我印象最为深刻的莫过于年初OpenAI发布的CLIP模型,通过简单的对比学习预训练,就能在多个下游任务中获得非常好的实验结果。因此,短短一年间,它就获得500+的引用量。在本文中,我们就来盘点一些基于CLIP模型的拓展网络。
本文是 Marktechpost 工作人员根据研究论文“对齐和提示:使用实体提示进行视频和语言预训练”的总结。这项研究的所有功劳归于该项目的研究人员。
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。
QA可以分为Close-domain QA和Open-domain QA,前者一般限制在某个特定领域,有一个给定的该领域的知识库,比如医院里的问答机器人,只负责回答医疗相关问题,甚至只负责回答该医院的一些说明性问题,再比如我们在淘宝上的智能客服,甚至只能在它给定的一个问题集合里面问问题;而Open-domain QA则是我们可以问任何事实性问题,一般是给你一个海量文本的语料库,比方Wikipedia/百度百科,让你从这个里面去找回答任意非主观问题的答案,这显然就困难地多。总结一下,Open-domain QA的定义:
视频-文本检索是视觉语言理解中一项重要但具有挑战性的任务,它旨在学习一个相关的视频和文本实例相互接近的联合嵌入空间。目前的大多数工作都只是基于视频级和文本级的嵌入来衡量视频-文本的相似性。然而,忽略更细粒度或局部信息会导致表示不足的问题。有些工作通过分解句子来利用局部细节,但忽略了相应视频的分解,导致了视频-文本表示的不对称性。
在RAG(RetrievalAugmented Generation)中,embedding模型的向量检索可以帮助提高文本生成的效果,但仍然需要
机器之心专栏 QQ 浏览器搜索技术中心、腾讯 PCG ARC Lab 近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。此外,QQ 浏览器还能根据用户正在观看的视频内容,推荐用户可能感兴趣的搜索词,推词的挖掘、排序同样需要模型
CLIP由于其强大的泛化性能,简单的代码逻辑,受到了广泛的关注。目前CLIP也被应用到各个其他场景中,在这篇文章中,我们就来盘点一下,怎么把CLIP这个图文预训练的模型拓展到具有时序信息的视频任务中。
mPLUG-video可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息,比如“跳跃”和“扭动”等。
动物的生物智能系统通过整合不同方式的信息并同时处理各种任务来感知世界。相比之下,当前的机器学习研究遵循特定于任务的范式,导致任务之间的协作效率低下,并且为新任务开发感知模型的边际成本较高。在本文中,作者提出了一种名为Uni-Perceiver的通用感知结构,该结构使用统一的建模和共享参数来处理各种模态和任务。
在本文中,作者将传统的视频字幕任务转换为一个新的范式,即开放式视频字幕,它在视频内容相关句子的提示下生成描述,而不限于视频本身。
欢迎来到「澜舟NLP论文领读」专栏!快乐研究,当然从研读 paper 开始——澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘、交流 NLP「黑科技」,踩在「巨人」肩上触碰星辰!
在处理大规模文本数据时,我们经常会遇到一些挑战,比如如何有效地表示和检索文档,当前主要有两个主要方法,传统的文本BM25检索,以及将文档映射到向量空间的向量检索。
视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。但是,大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外,通过使用从web收集的嘈杂的图像-文本对来扩展数据集,在很大程度上实现了性能改进,但这是监督的次优来源。
本文根据肖康在【第十三届中国数据库技术大会(DTCC2022)】线上演讲内容整理而成。
本文分享 CVPR 2022 论文『Bridging Video-text Retrieval with Multiple Choice Questions』,港大&腾讯&UCBerkeley提出带有多项选择任务的视频文本检索模型,《BridgeFormer》,性能SOTA!
视觉语言预训练(Vision-language pre-training)的相关研究在各种多模态的下游任务中已经证明了其强大的实力。
继 2018 年谷歌的 BERT 模型获得巨大成功之后,在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维,开发出各种语音、视觉、视频融合的 BERT 模型。
沈哥,我们有个业务,类似于“标题分词检索”,并发量非常大,大概20W次每秒,数据量不是很大,大概500W级别,而且数据不会频繁更新,平均每天更新一次,请问有什么好的方案么?
信息检索定义为对用户做出的查询进行响应并检索出最合适的信息的过程。在信息检索中,根据元数据或基于上下文的索引,进行搜索。搜索引擎 是信息检索的一个示例,对于每个用户的查询,它基于所使用的信息检索算法进行响应。信息检索算法中使用了倒排索引的索引机制。
现在,社交媒体、电商网站以及短视频应用源源不断地产生大量多模态数据。这些数据包含了自然语言、视觉信号、声音信号等多种类型。由于单一模式的数据分析已经不能满足日益复杂的查询需求,如何高效利用这些多模态数据变得至关重要。
对于这样允许大众分类的应用,如何满足用户在搜索时尽可能准确地返回用户所需要的资源是一个有意思的问题。因为如果像传统的搜索方法仅通过查询关键词去匹配搜索结果,返回的结果可能会不满足用户的初衷。而且,不同的用户在搜索不同的资源时有可能会使用同样的关键词,比如,爱好运动和爱好喝咖啡的用户在搜索杯子的时候使用的关键词都可能是“杯子”,而返回的结果对于爱好运动的用户来说应该尽可能是运动型杯子,对于爱好喝咖啡的用户来说应该尽可能是咖啡杯子。所以,这里的问题都归结于Personalized Search。
作者 | ai4happiness 相关链接 | https://zhuanlan.zhihu.com/p/660567767
随着VLMs规模的增大,用全参数更新来提高VLMs的对抗鲁棒性的传统对抗训练方法将导致高昂的计算和存储成本。近年来,由于在调整大规模预训练模型方面的显著成功,参数高效微调(PEFT)技术作为新型的适应范式受到了广泛关注。PEFT技术可以使用极小的额外可调参数调整VLMs,并且在性能上与FFT方法相当或更优。尽管PEFT技术在自然场景中取得了显著的成功,但在对抗攻击场景中的应用仍然很大程度上未被探索。但简单地在传统适应方法上应用对抗训练将导致1)防御性能有限和2)计算和存储成本高昂。为了验证作者的观点,作者在图2中可视化了不同对抗适应方法的对抗鲁棒性性能和可调参数数量。从结果中,作者发现FFT和UniAdapter等现有适应方法会导致大的参数成本。此外,LoRA、LP和Aurora对对抗攻击并不鲁棒。
文章大纲 安装及配置 Elasticsearch 7 与kibana 监控配置 python 客户端 数据录入 类型自动生成 数据查询 查看所有索引 DSL 简单查询 文本分析 分词插件配置 参考文献 ---- 《自然语言处理实战入门》 文本检索 ---- 初探 aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件 ---- 安装及配置 Elasticsearch 7 与kibana 监
毕竟,随着数据和模型规模的增大、计算能力的增加,我们似乎不再怀疑拥有超强人工智能的未来。
本视频将教你如何使用 BERT 将文本转换为固定长度向量存储到 Milvus 中,然后搜出相似文本。请点击下方 B 站链接观看视频:
在实际科研中,有时候可能需要在本地查找含有某个关键词的单个或多个文件,而Everything显然是不能胜任这项工作的。那有没有这样一款可以检索文本内容的工具呢?答案是肯定。
想必各位开发者一定使用过关系型数据库MySQL去存储我们的项目的数据,也有部分人使用过非关系型数据库Redis去存储我们的一些热点数据作为缓存,提高我们系统的响应速度,减小我们MySQL的压力。那么你有听说过向量数据库吗?知道向量数据库是用来做什么的吗?
本文介绍的是CVPR 2020的论文《Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning》(已开源),文章作者是中国人民大学博士生陈师哲同学,这项工作是陈师哲同学在澳大利亚阿德莱德大学吴琦老师组访问时所完成。
视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。
1.Efficient Discovery and Effective Evaluation of Visual Perceptual Similarity: A Benchmark and Beyond(ICCV 2023)
来源:专知本文为论文介绍,建议阅读5分钟视频-文本Transformer学会跨帧建模时间关系吗? 视频-文本Transformer学会跨帧建模时间关系吗?尽管具有巨大的容量和丰富的多模态训练数据,但最
机器之心专栏 作者:HJZ Salesforce 亚洲研究院推出了一站式视觉语言开源框架 LAVIS。 视觉语言模型在内容推荐、电子商务里有广泛应用,例如图像描述生成、文本图像检索以及多模态内容分类。依托于海量互联网数据,多模型模型近期得到长足发展,其性能在下游任务上得到了广泛的验证。 尽管如此,现阶段的视觉语言方向的发展也存在其局限性。例如,由于语言视觉任务的多样性和复杂性,特别是对于初学者或者其他领域的工程研究人员,训练和评估现有视觉语言模型并不容易, 其较陡的学习曲线让很多新接触视觉语言方向的人望而却
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。
领取专属 10元无门槛券
手把手带您无忧上云