由于最近需要进行组内的知识分享,因而借此机会将文本摘要的一些基本知识以及本人的一些实践经验做成文稿,一方面用来组内分享,一方面也是总结一下过去在该领域的一些心得体会。因个人的能力所限,本文实质上是对文本摘要的不完全总结,如有未能囊括的知识点,还请同学们多提意见,一起进步。
Frechet Inception 距离得分(Frechet Inception Distance score,FID)是计算真实图像和生成图像的特征向量之间距离的一种度量。
知识库是企业经营过程中的面向客户和内部员工的知识沉淀文档库,里面包含各类教程、问答、案例等,知识库的检索匹配是自然语言处理(NLP)中一个重要的基础问题,本质是进行文本语义的相似计算,也就是语义匹配,我们很多领域的任务都可以抽象为知识库的匹配检索任务,例如检索引擎、智能客服、知识检索、信息推荐等领域。
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
关键字提取是从文本文档中检索关键字或关键短语。这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。在本文中,我总结了最常用的自动提取关键字的方法。
自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。
会话式多文档问答旨在根据检索到的文档以及上下文对话来回答特定问题。 在本文中,我们介绍了 WSDM Cup 2024 中“对话式多文档 QA”挑战赛的获胜方法,该方法利用了大型语言模型 (LLM) 卓越的自然语言理解和生成能力。
今天分享来自 NAACL 2021的一篇文章,一种基于上下文倒排索引的信息检索模型:「COIL(COntextualized Inverted List)」。
目前信息检索(Information Retrieval)几乎都是使用深度学习系列的方法,即NeuIR(neural information retrieval)。而随着预训练在深度学习领域的大放光芒,信息检索中也出现了各种预训练策略。这篇文章博主将整理来自清华大学与中科院的信息检索综述,先上路径。
今天给大家总结了ACL2021中关于对比学习的论文,一共8篇,每篇都通过一句话进行了核心思想的介绍,希望对大家有所帮助。
协同过滤(Collaborative Filtering)算法是一种利用用户历史行为数据和物品属性之间的关系,预测用户对未知物品喜好程度的算法。它基于一个假设,即如果两个用户在过去喜欢的物品相似,那么他们在未来也可能会喜欢相似的物品。
自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。
在了解了基于用户的协同过滤之后,还有基于物品的的协同过滤。它们的原理非常类似。在电商平台中经常看到“看了又看”,“看过它的人还看”等等推荐,这些推荐背后对应的算法大多数都是基于物品的协同过滤。
导读:在本文中,将详细介绍多种类型的推荐系统,具体介绍基于近邻算法的推荐引擎、个性化推荐引擎、基于模型的推荐系统和混合推荐引擎等,并分析介绍每种推荐系统的优缺点。
提到推荐系统,很多人第一反应就是协同过滤,由此可见协同过滤与推荐系统的关系是有多么紧密。这里介绍下基于用户的协同过滤。
Transformer 是一种基于自注意力机制(Self-Attention)的【编码器-解码器】架构(由 Google 在 2017 年提出)。
自然语言处理(Natural Language Processing,NLP)是指帮助机器理解和分析自然语言;它是利用机器学习算法从数据中提取所需信息的一个自动化的过程。
本文主要阐述: 推荐系统的3个W 推荐系统的结构 推荐引擎算法 浏览后四章的内容请见下篇。 1. 推荐系统的3个W 1.1 是什么(What is it?) 推荐系统就是根据用户的历史行为、社交关系、
机器学习和深度学习技术在很多领域扮演着越来越重要的角色,以资金适配领域来说,它们在成本节约、推荐排序、收入机会和风险监控等方面可以带来明显的好处。但目前,机器学习和深度学习技术在资金适配方面的应用和探索仍缺乏一些经验。因此,消费分期产品“好分期”团队编写此文进行实践记录,同时也希望大家能提供一些宝贵意见。
本文将帮助你了解如何快速在 Elastic 中实施图像相似度搜索。你仅需要:要创建应用程序环境,然后导入 NLP 模型,最后针对您的图像集完成嵌入的生成工作。就这么简单!
导读:贝壳找房积累了大量房、客、人的行为关系数据,我们通过关系图谱的相关技术对这些行为关系进行挖掘,并在实际应用中取得了不错的效果。本次分享将主要介绍关系图谱在贝壳找房的构建历程和落地应用探索。
前言 由于是日语项目,用到的分词软件等,在中文任务中需要替换为相应的中文分词软件。例如结巴分词 : https://github.com/fxsjy/jieba 前提知识和术语解释 如果需要获得更多知识,请自行百度,谷歌。中文资料不是很多,有能力请阅读相关论文资料。 术语缩写 PV-DM: Distributed Memory Model of Paragraph Vectors 句向量的分布记忆模型 PV-DBOW: Distributed Bag of Words version of Parag
机器之心原创 机器之心编辑部 不久前,AAAI 2020 在美国纽约召开。大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。为向读者们分享更多的优质内容、促进学术交流,机器之心策划了多期 AAAI 2020 论文线上分享。 在最新一期的 AAAI 2020 线上论文分享中,机器之心邀请了在亚马逊上海人工智能实验室做实习研究的金致静,通过线上分享的方式介绍他们入选 AAAI 2020 的研究论文《Is BERT Really Robus
文本数据通常是由表示单词、句子,或者段落的文本流组成。由于文本数据非结构化(并不是整齐的格式化的数据表格)的特征和充满噪声的本质,很难直接将机器学习方法应用在原始文本数据中。在本文中,我们将通过实践的方法,探索从文本数据提取出有意义的特征的一些普遍且有效的策略,提取出的特征极易用来构建机器学习或深度学习模型。 研究动机 想要构建性能优良的机器学习模型,特征工程必不可少。有时候,可能只需要一个优秀的特征,你就能赢得 Kaggle 挑战赛的胜利!对于非结构化的文本数据来说,特征工程更加重要,因为我们需要将文
在威胁情报分析中,将高级具有可持续性的攻击事件定性为 APT 事件,定位 APT 组织并将 APT 组织的攻击事件关联起来是一件非常复杂的工作。火眼的威胁研究报告从“文档(样本)类聚模型”的角度将攻击事件汇聚关联。在“文档(样本)类聚模型”分析中,采取了词频-反文档频率 TF-IDF 指标和余弦相似度分析方法,大意理解为 TF-IDF 指标找唯一性(特殊),余弦相似度找相似性(同源)。并将该模型与威胁情报结合进行量化,来帮助情报专家来发现新的威胁组织、根据分析师需要提供可靠的“类聚”来提升对威胁事件的分析效率。
我的想法是:给你一张配料表,我能做什么不同的食谱?也就是说,我可以用我公寓里的食物做什么食谱?
本案例适合作为大数据专业自然语言处理课程的配套教学案例。通过本案例,能够达到以下教学效果:
如果一张图片可以用一千个单词描述,那么图片中所能被描绘的对象之间便有如此多的细节和关系。我们可以描述狗皮毛的质地,要被追逐的飞盘上的商标,刚刚扔过飞盘的人脸上的表情,等等。
Transformer 在 NLP 领域取得了进化性的进步,这已不是什么秘密。基于 Transformer,还发展出了许多其他机器学习模型。其中之一是 BERT,它主要由几个堆叠的 Transformer 编码器组成。除了用于一系列不同的问题(例如情感分析或问答)之外,BERT 在构建词嵌入(表示单词语义的数字向量)方面变得越来越流行。
本文介绍的是 ACL 2020 论文《Learning Robust Models for e-Commerce Product Search》,论文作者来自爱荷华州立大学、亚马逊。
在这个数据驱动的时代,我们对于信息的检索和处理速度有着前所未有的需求。尤其是在生成式人工智能(AI)应用领域,如何高效地处理和响应用户的查询成为了技术创新的前沿。本文将介绍如何利用 Elasticsearch 作为 RAG(Retrieval-Augmented Generation)应用的缓存层,大幅提升应用性能,减少成本,并确保生成响应的质量。
TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。本文介绍了抽取型文本摘要算法TextRank,并使用Python实现TextRank算法在多篇单领域文本数据中抽取句子组成摘要的应用。
记得原来和朋友猜测过网易云的推荐是怎么实现的,大概的猜测有两种:一种是看你听过的和收藏过的音乐,再看和你一样听过这些音乐的人他们喜欢听什么音乐,把他喜欢的你没听过的音乐推荐给你;另一种是看他听过的音乐或者收藏的音乐中大部分是什么类型,然后把那个类型的音乐推荐给他。当然这些都只是随便猜测。但是能发现一个问题,第二种想法很依赖于推荐的东西本身的属性,比如一个音乐要打几个类型的标签,属性的粒度会对推荐的准确性产生较大影响。今天看了协同过滤后发现其实整个算法大概和第一种的思想差不多,它最大的特点就是忽略了推荐的东西
余弦相似度衡量的是维度间取值方向的一致性,注重维度之间的差异,不注重数值上的差异,而欧氏度量的正是数值上的差异性。
前文我们介绍了NLP技术、数据、服务上相关演化发展的过程,接下来,我将结合两个具体的实例来分享我们在NLP领域的一些实施经验。今天要介绍的是:如何利用NLP技术以及智能聊天机器人来解决组织内部面临的大量的每日业务咨询问题。
2022年11月20日,中山大学计算机学院杨跃东教授团队与广州国家实验室陈红明研究员团队在Journal of Chemical Information and Modeling期刊上发表论文DRlinker: Deep Reinforcement Learning for Optimization in Fragment Linking Design。论文提出了用于优化片段连接设计的模型DRlinker,其具有优秀的性能表现,在基于片段的药物设计中具有一定的优势和适用性。
昨日,CoNLL 公布了最佳论文,由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信息(如语义/句法和相似度/相关度),为如何编码不同的语言信息提供了新的视角,该研究还研究了内外部评估之间的关系。
还在为用什么品牌的护发品烦恼吗?有了大数据,你需要做的也许只是动动指头。就读于纽约大学的一位数据侠,基于护发产品的用户评论等数据,开发了一款选品工具,本文分享了她的数据分析方法,看看对你有何启发?
对于人眼来说,很容易看出两个给定图像的质量有多相似。例如下图将各种空间噪声添加到图片中,我们很容易将它们与原始图像进行比较,并指出其中的扰动和不规则性。但是在机器学习中我们需要数学表达式来量化这种差异。
参考资料:https://help.salesforce.com/articleView?id=managing_duplicates_overview.htm Salesforce 很重要的一个平台
在许多NLP任务(特别是在文本语义匹、文本向量检索等)需要训练优质的句子表示向量,模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度,从而决定其匹配分数。尽管基于BERT在诸多NLP任务上取得了不错的性能,但其自身导出的句向量(【CLS】输出的向量、对所有输出字词token向量求平均)质量较低。由于BERT输出token向量预训练中,后面接的的分类的任务。所以其实输出token向量并不适合作为生成句子表示。美团一篇论文中提到,发现以这种方式编码,句子都倾向于编码到一个较小的空间区域内,这使得大多数的句子对都具有较高的相似度分数,即使是那些语义上完全无关的句子对,并将此称为BERT句子表示的“坍缩(Collapse)”现象:
每天给你送来NLP技术干货! ---- ©作者 | 崔文谦 单位 | 北京邮电大学 研究方向 | 医学自然语言处理 编辑 | PaperWeekly 本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展,其中包含了本人总结的文本语义相似度任务的处理步骤,文本相似度模型发展历程,相关数据集,以及重要论文分享。 文本相似度任务处理步骤 通过该领域的大量论文阅读,我认为处理文本相似度任务时可以分为一下三个步骤: 预处理:如数据清洗等。此步骤旨在对文本做一些规范化操作,筛选有用特征,去除噪音。 文本表示:
黄老板的一句【AI 的 iPhone 时刻已至】震撼了半个科技圈。或许,应该把这句话再扩展一下:AI 的 iPhone 时刻早已势不可挡,它不是平静随和地跟大家 say hi,而是作为一个强悍的巨人携着一把名为 ChatGPT 的斧子,重重地砸开了那扇通向 AI 新世界的大门。
疫情之下,全球金融市场进入大波动时代,各国金融调控政策、突发事件层出不穷,例如美联储无限量QE、欧央行7500亿复苏基金、中美关闭使领馆、阿塞拜疆和亚美尼亚爆发空战...如何24*7小时全天候自动、智能监控全球新闻事件,从而最快速地做出反应、最大可能地规避风险?
学习“TensorFlow方式”来构建神经网络似乎是开始机器学习的一大障碍。在本教程中,我们将一步一步地介绍使用Kaggle的Pitchfork数据构建Band s2vec模型时涉及的所有关键步骤。
领取专属 10元无门槛券
手把手带您无忧上云