句子相似度计算_计算句子相似度_句子相似度 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

自然语言处理中句子相似度计算的几种方法

非主流自然语言处理——遗忘算法系列（四）：改进TF-IDF权重公式

一、前言　　前文介绍了利用词库进行分词，本文介绍词库的另一个应用：词权重计算。二、词权重公式　　1、公式的定义　　　　定义如下公式，用以计算词的权重：　　2、公式的由来　　　　在前文中，使

海量数据相似度——局部敏感哈希(LSH)

海量高维数据查找与某个数据最相似的一个或者多个数据。与其它基于Tree的数据结构，诸如KD-Tree、SR-Tree相比，它较好地克服了Curse of Dimension，能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体（图像、音频）的相似性判断。

挖掘文本的奇妙力量：传统与深度方法探索匹配之道

许多 NLP 任务的成功离不开训练优质有效的文本表示向量。特别是文本语义匹配（Semantic Textual Similarity，如 paraphrase 检测、QA 的问题对匹配）、文本向量检索（Dense Text Retrieval）等任务。

业界 | ATEC蚂蚁人工智能大赛正式启动，我们从现场带来了Michael I. Jordan和蚂蚁金服算法专家们的解题攻略

机器之心报道作者：高静宜在大咖们的助力下，你对拿下百万奖金势在必行了吗？「经常有人问我，AI 的未来是什么？你对未来有着怎样的展望？我通常会说，那些金融科技公司所处的生态领域内的发展，将是未来A

【深度语义匹配模型】原理篇一：表示型

工业界的很多应用都有在语义上衡量本文相似度的需求，直接目标就是判断两句话是否表达了相同或相似意思，我们将这类需求统称为“语义匹配”，nlp中的许多任务都可以抽象为语义匹配任务。语义匹配的相关应用场景主要有搜索引擎、问答系统、推荐系统、文本去重等，主要是为了找到与目标文本最相关的文本，比如在问答系统中找到和问题最相关的答案，在搜索引擎中找到与搜索框中关键词最相关的网页等。

【比赛】CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

上周末参加了在云南昆明举办的“第十八届中国计算语言学大会”（The Eighteenth China National Conference on Computational Linguistics, CCL 2019）。CCL作为国内最好的NLP会议之一，笔者收获满满，感触颇深。于是写下这篇文章，和大家分享之所见所闻。

Kaggle知识点：文本相似度计算方法

文本相似度是指衡量两个文本的相似程度，相似程度的评价有很多角度：单纯的字面相似度（例如：我和他 v.s. 我和她），语义的相似度（例如：爸爸 v.s. 父亲）和风格的相似度（例如：我喜欢你 v.s. 我好喜欢你耶）等等。

一文详解文本语义相似度的研究脉络和最新进展

每天给你送来NLP技术干货！ ---- ©作者 | 崔文谦单位 | 北京邮电大学研究方向 | 医学自然语言处理编辑 | PaperWeekly 本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展，其中包含了本人总结的文本语义相似度任务的处理步骤，文本相似度模型发展历程，相关数据集，以及重要论文分享。文本相似度任务处理步骤通过该领域的大量论文阅读，我认为处理文本相似度任务时可以分为一下三个步骤：预处理：如数据清洗等。此步骤旨在对文本做一些规范化操作，筛选有用特征，去除噪音。文本表示：

目标跟踪基础：两张图片相似度算法

不管是传统的目标跟踪中的生成模型和判别模型，还是用深度学习来做目标跟踪，本质上都是来求取目标区域与搜索区域的相似度，这就是典型的多输入。

textrank算法原理与提取关键词、自动提取摘要PYTHON

首先介绍原理与概念 TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法（其原理在本文在下面）, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。 TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E

textrank算法原理与提取关键词、自动提取摘要PYTHON

TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法（其原理在本文在下面）, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

LSF-SCNN：一种基于 CNN 的短文本表达模型及相似度计算的全新优化模型

本文介绍了LSF-SCNN模型在短文本分类和答案选择问题上的应用。首先，作者介绍了模型的基本原理和结构，然后详细阐述了模型在两个数据集上的实验结果。实验结果表明，模型在两个数据集上均获得了较高的准确率，在答案选择问题上表现尤为突出。

Similarities：精准相似度计算与语义匹配搜索工具包，多维度实现多种算法，覆盖文本、图像等领域，支持文搜、图搜文、图搜图匹配搜索

Similarities 相似度计算、语义匹配搜索工具包，实现了多种相似度计算、匹配搜索算法，支持文本、图像等。

文本情感识别系统python+Django网页界面+SVM算法模型+数据集

文本情感分析系统，使用Python作为开发语言，基于文本数据集，使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。

Kaggle文本语义相似度计算Top5解决方案分享

今年和去年前后相继出现了多个关于句子相似度判定的比赛，即得定两个句子，用算法判断是否表示了相同的语义或者意思。其中第4、5这个2个比赛数据集格式比较像，2、3 的数据集格式比较像，本仓库基于2、3数据集做实验

Sentence-BERT详解

BERT和RoBERTa在文本语义相似度（Semantic Textual Similarity）等句子对的回归任务上，已经达到了SOTA的结果。但是，它们都需要把两个句子同时送入网络，这样会导致巨大的计算开销：从10000个句子中找出最相似的句子对，大概需要5000万(C_{10000}^2=49,995,000)个推理计算，在V100GPU上耗时约65个小时。这种结构使得BERT不适合语义相似度搜索，同样也不适合无监督任务，例如聚类

nlp自然语言处理中句子相似度计算

在做自然语言处理的过程中，现在智能对话比较火，例如智能客服，智能家电，智能音箱等，我们需要获取用户说话的意图，方便做出正确的回答，这里面就涉及到句子相似度计算的问题，那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。

【每周NLP论文推荐】介绍语义匹配中的经典文章

欢迎来到《每周NLP论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

[自然语言处理|NLP]NLP在预训练模型的发展中的应用：从原理到实践

自然语言处理（NLP）领域的发展取得了显著的突破，其中预训练模型的崛起引领了NLP技术的新潮流。本文将深入探讨预训练模型的发展历程、原理，并通过实例展示其在各个领域的创新应用，包括文本生成、情感分析、语义理解等。预训练模型的兴起不仅为NLP研究带来了新的思路，也为各行业提供了更强大的自然语言处理工具。

LLD: 内部数据指导的标签去噪方法

很多数据集中的标签都存在错误，即便它们是由人来标注的，错误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除错误标签、降低其权重等方法。ACL2022有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于样本内部指导的方法解决这个问题

技术干货 | 达观数据智能问答技术研究

在AlphaGo大胜李世石、柯洁之后，人工智能越来越火，智能问答也是其中必不可少的一环。智能问答一般用于解决企业客服、智能资讯等应用场景，实现的方式多种多样，包括简单的规则实现，也可以基于检索实现，还可以通过encoder-decoder框架生成，本文通过几种常见的问答技术，概要介绍了达观数据智能问答相关原理研究。 1 基于规则的智能问答基于规则的智能问答通常是预先设置了一系列的问答规则，在用户输入一个问题时，去规则库里匹配，看是否满足某项规则，如果满足了就返回该规则对应的结果。如规则库里设置“*你好

011

KG4Py：Python代码知识图谱和语义搜索的工具包

现在的项目程序中存在着大量重复的代码片段，尤其是在软件开发的时候。在本文中，我们提出了一个工具包（KG4Py），用于在GitHub存储库中生成Python文件的知识图谱，并使用知识图谱进行语义搜索。在KG4Py中，我们删除了31.7万个Python文件中的所有重复文件，并通过使用具体语法树（CST）构建Python函数的代码知识图谱来执行这些文件的静态代码分析。我们将预先训练的模型与无监督模型集成后生成新模型，并将该新模型与代码知识图谱相结合，方便搜索具有自然语言描述的代码片段。实验结果表明，KG4Py在代码知识图谱的构建和代码片段的语义搜索方面都取得了良好的性能。

ACL 2022 | 引入角度margin构建对比学习目标，增强文本语义判别能力

A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space

KG4Py：Python代码知识图谱和语义搜索的工具包

python实现字符串模糊匹配

之前笔者写过一篇文章关于如何做搜索，但那篇文章的角度是从文本相似度角度写的。那种方式是目前发展的趋势，但是真正的搜索特别是网页搜索不可能在大范围的文本之间两两算相似度的。那样搜索引擎的效率会变得特别低下。本文将从字符串模糊匹配的角度介绍一下搜索引擎。一般的搜索，要分为两个步骤：搜索和排序。搜索的方法有很多，为了高效一般进行字符串或关键词匹配，而用户提供的一些关键词可能不是数据库中保存的，例如使用倒排的方法很难找到Head节点，此处需要使用模糊匹配的方式。这里简单列举一下Learning-to-Rank排序

干货 | 详述 Elasticsearch 向量检索发展史

通过将复杂的对象（例如文本、图像或声音）转换为数值向量，并在多维空间中进行相似性搜索，它能够实现高效的查询匹配和推荐。

从 Sentence-BERT 谈句子表征

在之前那篇 NLP 表征的历史与未来[1] 里，我们几乎从头到尾都在提及句子表征，也提出过一个很重要的概念：“句子” 才是语义理解的最小单位。不过当时并没有太过深入细节，直到做到文本相似度任务时才发现早已经有人将其 BERT 化了。

文本相似度算法小结

首先是最简单粗暴的算法。为了对比两个东西的相似度，我们很容易就想到可以看他们之间有多少相似的内容，又有多少不同的内容，再进一步可以想到集合的交并集概念。

010

特定领域知识图谱融合方案：技术知识前置【一】-文本匹配算法、知识融合学术界方案、知识融合

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案：技术知识前置【一】-文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述，从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型，期间也涉及了近几年前沿的对比学习模型，之后提出了文本匹配技巧提升方案，最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主，之后会慢慢把项目开源出来，一起共建KG，从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。

详解自然语言处理5大语义分析技术及14类应用（建议收藏）

自然语言处理技术的研究，可以丰富计算机知识处理的研究内容，推动人工智能技术的发展。

内存用量1/20，速度加快80倍，腾讯QQ提出全新BERT蒸馏框架，未来将开源

BERT 已经被验证是解决口语化短文本语义量化的极为有效的工具，对于口语化人机交互系统如 FAQ、语音助手等产品意义重大。但受限于模型的高复杂度和高计算量，其产业线上应用进展不如预期，尤其很难满足像 QQ、QQ 空间等亿级用户量产品对性能的需求。

NLP入门：为什么草莓和西瓜更亲？

“噢我的上帝，比尔你再这样，我可要踢你的屁股了。” 如果你看过译制片，一定知道尴尬的翻译难免会让人出戏。世界上有不同的文化，为了实现更好的沟通，学习对方的语言是个讨巧的捷径，但在面对强大的中文时，歪果仁也很是令咱们熏疼…… 把“美”字标记成两个“¥”： 📷 “奥”字被理解成了一个举刀向前的战士： 📷 “哭”字被非常写意地标记为一只流泪的狗…… 📷 图片来自@央视新闻微博人类理解中文尚且如此，机器就更“惨不忍睹”。当你满怀欣喜地下了新游戏，本想用“唠嗑药别停”这个昵称注册的时候却被告知不允许使用，因为包

013

Open-AI：基于对比学习的无监督预训练

如何无监督地训练一个神经检索模型是当前IR社区的研究热点之一，在今天我们分享的论文中，OpenAI团队尝试在大规模无监督数据上对GPT系列模型做对比预训练(Contrastive Pre-Training)，得到的 CPT-text模型在文本匹配、语义搜索等任务上取得了优异的zero-shot性能。

如何做文本分析_大数据文本行去重

在之前的两篇博文分别介绍了常用的hash方法（[Data Structure & Algorithm] Hash那点事儿）以及局部敏感hash算法（[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)），本文介绍的SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐