计算句子相似度_句子相似度计算_句子相似度 - 腾讯云开发者社区

python、nlp、huggingface-transformers、sentence、sentence-similarity

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

2回答

句子语义相似度和频度

python、nlp、nltk

我有一组逐字逐句的句子，我试着做的是....if两个句子有相同的意思，这些句子应该被原来的句子替换，然后我必须计算这些句子的频率。有没有办法可以用NLTK来做呢？在这方面的任何建议都是欢迎和赞赏的。我正在寻找NLP方法。谢谢

浏览 1提问于2018-05-02得票数 1

2回答

特定主题语言模型的评价

machine-learning、nlp、language-model、gpt

我已经在我的自定义数据集上完成了一个预先训练过的语言模型(GPT-2)。我希望有一种方法来评估我的模型生成特定预定义主题的句子的能力，以单个关键字的形式给出。“计算机”)或一袋袋单词(如：“计算机”、“Linux”、“服务器”.) 例如，给定LM，模型的输出与单词计算机指定的主题有多大的关系？我已经尝试过的是:从LM生成足够多的句子，并将这些句子与目标主题(或主题中的每一个单词，我们有多个单词)之间的平均余弦相似度作为这里描述。我不确定这是否是一种有效的方法，而且句子之间的余弦相似性在很多情况下也会产生很差的结果。提前感谢您的帮助。

浏览 0提问于2020-10-02得票数 2

回答已采纳

3回答

句子间的语义相似度

java、nlp

我在做一个项目。我需要任何开源工具或技术来找到两个句子的语义相似度，其中我给出两个句子作为输入，并接收分数(即语义相似度)作为输出。有什么帮助吗？

浏览 3提问于2010-01-11得票数 8

1回答

哪种类型的自动编码器可以实现文本相似性？

neural-network、nlp、autoencoder

我之前没有任何在神经网络方面的工作经验，所以任何帮助都将不胜感激。我正在解决以下任务:我想找出句子对之间的相似度得分。我的想法是为句子中的每个单词生成嵌入，并将向量提供给编码器，编码器将学习将这些多个输入聚合为一个较低的表示序列向量。并使用该序列向量之间的余弦相似度来找出相似度得分。我的问题是，对于哪种类型的自动编码器或神经网络架构更适合我的情况，您有什么建议吗？

浏览 3提问于2019-11-25得票数 0

1回答

用spark实现TextRank算法(用spark计算余弦相似度矩阵)

python、apache-spark、pyspark、nlp、textrank

我正在尝试实现textrank算法，其中我正在计算所有句子的余弦相似矩阵。我想使用Spark并行创建相似矩阵的任务，但不知道如何实现it.Here代码： cluster_summary_dict = {} for cluster,sentences in tqdm(cluster_wise_sen.items()): sen_sim_matrix = np.zeros([len(sentences),len(sentences)]) for row in range(len(sentences)): for col in

浏览 165提问于2020-07-20得票数 2

回答已采纳

2回答

如何对两个句子进行双重编码以表示相似度

neural-network、deep-learning、word-embeddings、search、vector-space-models

我一直在试图理解谷歌的语义体验的概念。通过使用它，我计划实现一个语义查询工具。使用通用句子编码器，我可以先对所有句子进行预编码，然后把它们放到数据库中.当用户想要执行查询时，输入也将转换为512维向量，我们将通过比较余弦相似度(选择最高相似度向量)对整个数据库执行顺序搜索。但这太慢了..。幸运的是，在他们的语义体验页面上，他们写了以下内容：通用语句编码器模型非常类似于我们在对图书和Semantris的对话中使用的方法，尽管这些应用程序使用的是双编码器方法，它最大限度地提高了响应相关性，而通用语句编码器是一个为输入返回嵌入的编码器，而不是输入对上的分数。将句子转换为嵌入向量的一种更简单的

浏览 0提问于2018-11-26得票数 1

1回答

欧几里德距离是否衡量语义相似性？

scikit-learn、gensim、euclidean-distance、cosine-similarity、sentence-similarity

我想衡量句子之间的相似度。我可以使用sklearn和欧几里得距离来衡量句子之间的语义相似度吗？我还读到了关于余弦相似性的文章。有人能解释一下它们与度量的区别吗?使用的最佳方法是什么？

浏览 0提问于2018-11-11得票数 2

2回答

如何使用LSA计算句子之间的相似度？

lsa

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

1回答

如何从单词相似度到整体句子相似度

java、stanford-nlp、wordnet、sentence-similarity、ws4j

我已经使用WS4J实现了一个句子相似度方法。我读过关于文章中句子相似度的文章，它是基于两个句子中的单词相似度。但我找不到一种方法来计算并返回基于单词相似度的整个句子相似度的单个值。在这个网站上也提出了类似的问题正如您所看到的，我已经成功地使用WS4J进行了编码，直到句子a中的任何一个单词在另一个句子中找到一个同义词集匹配(匹配值大于0.9)才会返回一条匹配消息。但我想这不是一个好方法。我发现玉华等人的这篇文章都很有用，但无法弄清楚他们用来计算整体句子相似度的方法。 public static String sentenceSim(String se1, String se2, Rela

浏览 1提问于2016-03-22得票数 0

1回答

基于余弦相似性度量的n元语法句子相似度

similarity、trigonometry、n-gram

我一直在做一个关于句子相似性的项目。我知道这个问题已经被问了很多次了，但我只是想知道我的问题是否可以通过我正在做的方法来完成，或者我应该改变我解决问题的方法。粗略地说，系统应该拆分一篇文章的所有句子，并在输入到系统的其他文章中找到相似的句子。我正在使用tf-idf权重的余弦相似度，这就是我如何做到的。 1-首先，我将所有文章分成句子，然后为每个句子生成三元组并对它们进行排序(我应该吗？) 2-我计算三文法的tf-idf权重，并为所有句子创建向量。 3-我计算原始句子和要比较的句子的点积和幅值。然后计算余弦相似度。然而，系统并没有像我预期的那样工作。在这里，我有一些问题在我的头脑中。据我所

浏览 3提问于2010-10-28得票数 6

回答已采纳

2回答

Python:如何更快地计算Jaccard相似度

python-3.x、nlp

lst_train中约有98,000句(5-100字)，lst_test约有1,000个句子(5-100字长)。对于lst_test中的每一个句子，我想知道它是否是从lst_train中的一个句子中剽窃来的。如果这个句子是剽窃的，我应该用lst_train或or返回id。现在，我想计算lst_test中每个句子相对于lst_train中每个句子的jaccard相似性。下面是我的代码，b.JaccardSim计算两个句子的jaccard相似性： lst_all_p = [] for i in range(len(lst_test)): print('i:', i)

浏览 0提问于2018-06-09得票数 5

回答已采纳

2回答

如何通过抓取整个网站来选择与我的句子相似的句子？

nlp、artificial-intelligence、chatbot、word2vec、doc2vec

如果我给出一个句子，如何返回所有相似的句子？例如：面试需要多长时间？相似的句子应该是 1.面试持续多长时间。 2.面试的持续时间。该怎么做呢？我正在考虑的一种方法是爬行30到40个公司招聘网站的常见问题页面，并使用doc2vec嵌入问题，然后我会将所有类似的向量放在一个集群中。有比这更好的方法吗？

浏览 0提问于2018-05-11得票数 1

2回答

如何根据关键字的位置比较句子？

python、nlp、nltk

我想比较一下这两个句子。例如，sentence1=“足球很好，板球很糟糕”sentence2=“板球很好，足球很糟糕” 一般来说，这些句子没有关系，这意味着它们的意思是不同的。但当我将它与python nltk工具进行比较时，它会给出100%的相似性。如何解决此问题？我需要帮助。

浏览 17提问于2019-09-22得票数 0

1回答

如何选择句子和段落之间的相似度度量

python、nlp、similarity、semantic-similarity

问题 1.如何找到合适的测量方法有几种测量句子相似性的方法，但我不知道如何为我的数据(句子)找到合适的方法。关于堆栈溢出的相关问题：有没有办法检查python中两个完整句子之间的相似性？ 2.基于的句子或段落如果可以同时获得一个句子和一个包含句子的段落，那么哪个句子或段落之间的相似性更准确呢？到目前为止我尝试了什么， 1.我尝试使用其中一个库来度量相似性. 然而，我很难找到更精确的方法来测量相似之处。 original = 'New York is a noisy city where hamburgers are famous.' test = ['Berl

浏览 0提问于2022-02-07得票数 2

回答已采纳

1回答

如何根据编辑距离对句子进行分组？

python、machine-learning、nlp、cluster-analysis、edit-distance

我有大量的句子(36k句)和它们的POS标签(POS列表)，我想使用编辑距离/Levenshtein对POS列表中的元素进行分组/聚类： (如Sentx POS tags= CC DT VBZ RB JJ，Sentx tags= CC DT VBZ RB JJ )在集群编辑距离=0，而(CC DT VBZ RB JJ，CC DT VB RB JJ)在簇编辑距离=1。我理解聚类算法是如何工作的，但我很困惑如何在python中处理这样的问题，以及如何将集群存储在数据结构中，这样我就可以轻松地检索它们。我试着创建一个矩阵(用语料库中的所有句子来度量每个句子的距离)，但是需要很长时间来处理。

浏览 4提问于2017-05-21得票数 2

1回答

DL4J:如何利用GoogleNews向量计算两个新句子之间的语义相似度

nlp、deeplearning4j、dl4j

我只是在学习DL4J的基础教程。我打算比较两个看不见的句子的相似之处。我使用一个简单的例子来比较W2V使用GoogleNews-vectors-negative300.bin.gz完成后的两个单词。当我尝试使用GoogleNews矢量 File gModel = new File("GoogleNews-vectors-negative300.bin.gz"); Word2Vec vecGoogle = WordVectorSerializer.readWord2VecModel(gModel); ParagraphVectors vecGoogleForSentences

浏览 0提问于2018-01-31得票数 1

1回答

词与字典的比较与赋值

python、nlp

我用刮刮爬行了几个欺凌论坛，并将结果作为字典使用。我现在要做的是提取一个句子的关键字，例如He harassed me in the chat，这将给出关键字Harassed和chat，并将这些关键字与我的单词字典进行比较，并为它的相关性分配一个值(在这种情况下，这显然会提供接近1.0的高值，因为它与欺凌非常相关)。我已经把关键词提取下来了，所以现在我只需要知道如何进行比较。我看过使用pandas、scikit和nltk的情况，但它们似乎对多个字段的字典最有效，而我只有一袋单词。有什么NLP库可以帮我吗？如果不这样做，最好的办法是什么？

浏览 0提问于2018-07-15得票数 1

回答已采纳

3回答

根据一组文档中的相似度对句子进行排序的最佳方法

string、algorithm、similarity

我想知道从一组文档中根据相似度对句子进行排序的最佳方法。例如，假设，以文档1为主要内容的5个documents.Each文档包含多个sentences.Lets，即输出将包含来自该文档的句子的列表应该是所有5个文档中排名最相似的句子列表，第一个排序的句子是所有5个文档中最相似的句子，然后是第二个，然后是第三个... 提前谢谢。

浏览 0提问于2012-01-04得票数 0

回答已采纳

1回答

用于查找相似句子的Gensim和Annoy

python、nlp、gensim

我在数据库中有大量的句子，我想找到这些句子中与用户输入的单个句子最相似的句子。看起来我可以用做到这一点，但我能看到的所有例子都是使用word2vec，我相信它对于查找单个相似的单词很好，但不适用于句子。但是，我注意到AnnoyIndexer()可以采用word2vec或doc2vec模型。我说的过程是一样的，但是把word2vec模型换成doc2vec模型，并使用搜索句子的doc2vec向量，对吗？我是否需要以任何方式使用预训练的单词嵌入，或者我是否只需要使用数据库中的句子语料库来训练doc2vec模型？谢谢!

浏览 19提问于2020-02-19得票数 0

1回答

NLP如何获取两个文档之间的差异

nlp、scikit-learn、stanford-nlp、gensim、spacy

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

3回答

选择相似的句子

r、string-comparison、edit-distance

如果我有一组句子，并且我想提取副本，我应该像下面的例子那样工作： sentences<-c("So there I was at the mercy of three monstrous trolls", "Today is my One Hundred and Eleventh birthday", "I'm sorry I brought this upon you, my", "So there I was at the mercy of three monstro

浏览 5提问于2021-02-20得票数 3

回答已采纳

1回答

如何找到两个句子之间的语义相似度？

nlp

请告诉我一些寻找句子之间语义相似度的方法。 For example: Sen1 :- Ram killed Ravan Sen2 :- Sam was killed by Ravan 这两个句子有什么相似之处？

浏览 12提问于2016-08-08得票数 2

回答已采纳

3回答

NLP算法计算最大5-6字句子间的相似度

machine-learning、python、nlp

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约. 。上下文：用户可以创建尽可能多的类别，他希望分组他的照片。我注意到这些类别中有很多是空的，当潜得更深一点时，我看到用户创建的许多类别几乎都有相同的名称，例如，法国对法国法郎夏季对夏季海滩和海滩(心脏表情) 一种假设是，他们创建一个带有拼写错误的类别，而不是删除，而是创建一个新的类别。目标：量化用户级别上高度相似的类别对的数量。所以我的问题基本上有两个方面：哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相

浏览 0提问于2022-04-01得票数 1

4回答

计算两个句子之间的相似度

javascript、string、algorithm、math、levenshtein-distance

我想计算两个句子之间的相似度，我需要百分比值来说明它们相互匹配的程度。像这样的句子， 1. The red fox is moving on the hill. 2. The black fox is moving in the bill. 我正在考虑Levenshtein distance，但我不确定这一点，因为它说它是为了寻找"2个单词“之间的相似性。那么这个Levenshtein distance可以帮助我吗?或者还有什么其他方法可以帮助我呢？我将使用JavaScript。

浏览 0提问于2014-05-30得票数 1

1回答

自然语言处理任务的分类

nlp

问题我目前正在学习自然语言处理的基础知识。我看到这方面的许多任务是为句子中的每个单词指定标签，包括POS标记、分块、命名实体识别和语义角色标记。我的问题是是否有其他不涉及为句子中的每个单词指定标签的任务。我能想到的一件事是情感分析，它为整个句子/文档或句子/文档的不同方面指定标签。是否有一些建议阅读的调查，总结自然语言处理的一般任务。

浏览 0提问于2019-05-18得票数 1

1回答

余弦相似度很慢

python-3.x、similarity、cosine-similarity、sentence-similarity

我有一组句子，它们是使用句子编码器编码成向量的，我想找出与输入查询最相似的句子。搜索功能如下所示： def semantic_search(cleaned_query, data, vectors): query_vec = get_features(cleaned_query)[0].ravel() res = [] for i, d in enumerate(data): qvec = vectors[i].ravel() sim = cosine_similarity(query_vec, qvec) if si

浏览 54提问于2019-09-29得票数 2

2回答

获取两个全文文档之间相似性度量的方法？

python、nlp、artificial-intelligence、topic-modeling

因此，假设我有三个文本文档，例如(让3个随机生成的文本)。第1号文件： “七岁的时候，每一英里都是平铺的。希望他完全尊敬欧先生。可能是床上有你的快乐，文雅的男孩，优雅的火腿。如果他高兴的话，他会阻止请求。图片和关心也是舒适的。十个困难也不像渴望。同样的公园也是.” 文件2： “格调也太文雅了。完美得罪的企图加上安排年龄先生的结论。得到谁不寻常的表情十加考虑偶尔的旅行。曾经读过诉说年给可能的男人打电话。愤怒的儿子变胖了，收入变高了.” 如果我想在python (使用库)中获得关于这两个文档与第三个文档(换句话说，这两个文档中的哪个文档与第三个文档更相似)有多相似的度量，那么最好

浏览 0提问于2020-01-30得票数 1

回答已采纳

2回答

如何从两个向量中求出相似向量？

cnn、text-mining

我想为三个类别建立一个分类模型，每个观察我有两个句子，首先对每个句子应用一个cnn层，然后添加密集层。 inputs = Input(shape=(2,n_timesteps)) embedding_inputs = embedding_layer(inputs) sentence1 = Lambda(lambda x: x[:,0,:,:])(embedding_inputs) sentence2 = Lambda(lambda x: x[:,1,:,:])(embedding_inputs) conv_sentence1 = Conv1D(filters=64, kernel_siz

浏览 0提问于2019-12-19得票数 0

1回答

多类文本分类:如果输入与类不匹配，则为新类

python-3.x、machine-learning、classification、text-classification

我正在尝试对文本片段进行分类。我有9个类别，但我给出的句子可以分为更多的类别。我的目标是找出每句话的行业，我有一个常见的问题是，我的训练集没有“色情”类别和带有色情材料的句子被归类为“财经”。我想让我的分类器检查句子是否可以分类，如果不能只打印出来，就不能对文本进行分类。我使用Tf-idf向量器转换句子，然后将数据提供给LinearSVC。有人能帮我解决这个问题吗？或者有人能给我一些有用的材料？

浏览 3提问于2017-06-17得票数 0

1回答

用于在chrome扩展中分析文本的Javascript

javascript、google-chrome、tensorflow、google-chrome-extension、summary

大家好，我被困在这件事上了，我知道希望有人能帮上忙很容易。如何读取输入文本中的每个单词并为每个单词赋值？输出必须包含所有具有最高中值的句子。之后，我需要将这些句子与一些句子进行比较，看看它们有多相似。如果你需要我说的更清楚，请告诉我，任何形式的帮助都是非常感谢的！

浏览 0提问于2020-08-26得票数 0

1回答

用词向量表示句子的余弦相似度现在可以衡量词序吗？

nlp、deep-learning

我知道，原始的余弦相似度，当应用于通过特定单词的频率来表示两个文档时，并不衡量词序。我现在看到一大堆论文将余弦相似度应用于由单词向量组成的句子对的表示。我假设他们把每个句子的token# x嵌入长度矩阵展平成一个长向量，它的长度是原始句子的token# x嵌入长度。因此，“我爱你”和“你爱我”(归一化为"I")在这种应用余弦相似性的新方法中不会产生1，而旧方法会产生1。我说的对吗?谢谢你的任何启发性的回答。

浏览 2提问于2016-06-21得票数 1

1回答

文本数据的长度是否影响聚类的得分？

python、scikit-learn

我正在学习如何使用Pythons Scikit-Learn库进行集群。我有一个句子(字符串)的列表。我想知道，字符串的长度是否会影响silhouette_score。例如，我有从2个单词到35个单词的句子，我尝试了从2到60个集群的数量，我得到的最大的silhouette_score是7。这会影响到silhouette_score吗？最好是过滤我的数据，这样我就可以选择比字数更接近的句子，例如，将字数从20-25或5-10设置为？我的代码是这样的： list_of_comments = data #cv = TfidfVectorizer(analyzer = 'word'

浏览 0提问于2019-09-07得票数 1

回答已采纳

1回答

单词/句子相似度。最好的方法是什么？

python、nlp

我需要为产品主数据构建一个算法，我不确定最好的NLP方法。场景是：-我有产品黄金记录；-我有许多其他需要协调的产品目录；例如：-产品黄金记录:可口可乐和可口可乐零；-需要进行哈密化的产品描述:可口可乐300ml，可口可乐300毫升，可口可乐零。我需要一个通过相似度来协调的算法，因为我必须考虑打字错误，有时还需要考虑句子中的产品片段。示例: Coke zero JS MKT (JS和MKT是垃圾，但句子更类似于Coke Zero)。我一直在测试一些NLP的句子相似度，比如Bag of words，以及阅读其他一些方法，比如Cosine相似度和Levenshtein距离。然而，我不知道对我的情

浏览 14提问于2019-07-31得票数 0

回答已采纳

4回答

最近发现两个短句或文章之间的语义相似性的方法(在概念层面上)

machine-learning、nlp、artificial-intelligence、nltk、similarity

我正在努力寻找短句和文章之间的相似之处。我使用了许多现有的方法，如tf-idf，word2vec等，但结果还不错。我发现的最相关的度量是单词移动距离，然而，它的结果并不比其他度量好。我知道这是一个具有挑战性的问题，然而，我想知道是否有任何新方法可以在更高或更高的概念级别上找到近似相似性，而不仅仅是匹配单词。特别是，有没有其他的新方法，比如单词移动距离，它着眼于句子或文章的稍微高一点的语义？

浏览 1提问于2017-07-07得票数 0

1回答

NLP提取关联词

python-3.x、machine-learning、nlp

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

1回答

快速文本预训练句子相似度

python、nlp、information-retrieval、fasttext、sentence-similarity

我想使用快速文本预训练模型来计算一组句子之间的相似度。有谁可以帮我？什么是最好的方法？我通过训练一个tfidf模型来计算句子之间的相似性。像这样写代码。是否有可能改变它和使用快速文本预先训练的模型？例如，使用向量来训练tfidf模型？ def generate_tfidf_model(sentences): print("generating TfIdf model") texts = [[sentence for sentence in doc.split()] for doc in sentences] dictionary = gensim.co

浏览 3提问于2019-12-04得票数 2

回答已采纳

1回答

找出句子之间的相似分数

python、deep-learning、nlp

我试图从我的数据中找到相似的句子，我的代码给了我一个输出，它基本上对类似的句子进行排序，比如1、2和3，其中，等级1将是高度相似的句子。我用BM25来找出这个例子:第一句：“那个人穿着一件红色的衬衫。第一名：“那个男孩穿着一件红色的衬衫” 第二名：“那个男孩穿着衬衫” 第三名：“女孩穿着连衣裙” 我也想知道相似的分数，以了解这些句子有多相似。那里需要帮助！

浏览 6提问于2022-03-16得票数 1

1回答

大规模杀伤性武器(word mover based )和基于大规模毁灭性武器( wmd )的相似性有什么区别？

nlp、nltk、gensim、word2vec、word-embedding

我使用大规模杀伤性武器来计算句子之间的相似度。例如： distance = model.wmdistance(sentence_obama, sentence_president) 参考资料：然而，也有基于大规模毁灭性武器的相似性方法(WmdSimilarity).。参考资料：除了一种明显的距离和另一种相似之外，两者之间有什么区别？更新:除了它们的不同表示形式之外，都是完全相同的。 n_queries = len(query) result = [] for qidx in range(n_queries): # Compute similarity for each quer

浏览 2提问于2017-08-04得票数 4

回答已采纳

1回答

在python中使用Tf-Idf的搜索引擎

python、machine-learning

以下是我的代码 from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ "this is first document ","this is second document","this is third","which document is first", ] vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(corpus) X.toarray() 这

浏览 0提问于2019-12-11得票数 2

1回答

如果我对If余弦(sent1，sent2) > 0.9使用伯特嵌入，那么假设s1和s2是相似的，这是否公平？

nlp、bert、cosine-distance、semantic-similarity

根据伯特的作者雅各布德夫林:我不确定这些向量是什么，因为伯特没有产生有意义的句子向量。这似乎是对单词符号进行平均池来获得一个句子向量，但我们从来没有说过这会产生有意义的句子表示。即使它们是适当的表示，当输入到为下游任务训练的DNN中时，也并不意味着它们在余弦距离方面是有意义的。(因为余弦距离是一个线性空间，其中所有维都是同等加权的)。

浏览 0提问于2020-10-12得票数 1

6回答

句子相似度检测的BLEU评分实现

java、algorithm、nlp、text-processing、machine-translation

我需要计算BLEU分数来判断两个句子是否相似。我看过一些文章，这些文章大多是关于测量机器翻译accuracy.But的BLEU分数。我需要一个BLEU分数来找出同一个languageEnglish中句子之间的相似度。(即)(这两个句子都是英文的).Thanks in languageEnglish。

浏览 6提问于2011-03-22得票数 6

回答已采纳

1回答

如何提取和使用伯特编码的句子之间的文本相似性。(PyTorch/Tensorflow)

tensorflow、deep-learning、nlp、pytorch、bert-language-model

我想要建立一个文本相似模型，我倾向于使用该模型来查找常见问题和其他方法，以获得最相关的文本。我想对这个NLP任务使用高度优化的BERT模型，.I倾向于使用所有句子的编码来获得一个使用cosine_similarity并返回结果的相似矩阵。在假设条件下，如果我有两个句子作为hello world和hello hello world，那么我假设BRT会给出类似于[0.2,0.3,0] (0表示填充)和[0.2,0.2,0.3]的句子，我可以在sklearn's cosine_similarity中传递这两个句子。我应该如何提取嵌入的句子，以便在模型中使用它们？我在某个地方发现它可以被提

浏览 2提问于2020-07-22得票数 1

回答已采纳

1回答

NLP -识别人与人之间文本评论的共性的简单方法

nlp、text-mining

对于我们正在做的事情，我们正在寻找一种简单的方法来比较审查/反馈数据与一个问题(对于这个问题有来自多个人的多个答复)，如下：他们说的是什么共同的东西(定义为短语/句子)(如果可能的话，也可以用某种方式来量化共性)。关键是要找出他们的审查似乎是一致的领域。什么是不常见的事情(basically...what是那些被告知非常不常见的断句/短语) 哪里有分歧(即在答复之间是否有可能存在分歧的句子/短语) 目标是找到一个简单的解决方案，而不一定是模型驱动的(缺乏数据)。Also...it需要对这个time...as进行定向，目的是证明它可以工作，并能产生合理的结果。有什么建议吗？非常感谢！ P

浏览 0提问于2020-03-31得票数 1

2回答

基于句子层次相似度的释义识别

nlp、data-mining、text-mining、stanford-nlp

我是一个新的进入NLP (自然语言处理)。作为一个启动项目，我正在开发一个释义识别器(一个可以识别两个类似句子的系统)。对于这个识别器，我将在三个层次上应用不同的度量，即:词汇、句法和语义。在词汇层面，有多种相似性度量，如余弦相似度、匹配系数、Jaccard系数等。对于这些度量，我使用谢菲尔德大学( University )开发的simMetrics软件包，其中包含了许多相似的度量。但是对于Levenshtein距离和Jaro-Winkler距离度量而言，代码只位于字符级别的，而我需要句子级别的代码(即将单个单词视为单元而不是字符)。此外，在SimMetrics中没有计算曼哈顿距离的代码。对于

浏览 4提问于2011-01-08得票数 3

1回答

用LSA求两句句子的余弦相似度

python、gensim、cosine-similarity、lsa

我试图使用潜在的语义索引来根据一个大型语料库产生的主题来生成两句句子之间的余弦相似度，但我很难找到任何完全符合我所寻找的内容的教程--我发现的最接近的是，但我并不想找到与查询最相似的句子，我特别想使用LSI模型来降低两句句子的维数，然后测量这两句话的余弦相似度。有人能帮忙吗？从引用的文章中，我想我可能看了下面的代码，然后进行余弦相似度计算？但我被困住了。 import gensim from gensim import corpora, models, similarities from gensim.models import LsiModel # texts = list of lis

浏览 13提问于2022-07-13得票数 0

回答已采纳

2回答

如何度量查询和文档之间的语法相似度？

text、syntax、nlp、similarity

有没有一种方法来衡量查询(句子)和文档(一组句子)之间的句法相似性？

浏览 3提问于2013-03-03得票数 1

3回答

确定两句相似程度的算法

python、algorithm、parsing、tree、nlp

我的一个朋友有一个想法，要制作一个速度阅读程序，逐个显示单词(就像目前存在的速度阅读程序)。然而，这个程序会过滤掉那些对意思来说并不完全必要的单词(如果你想略读一些东西)。我已经开始执行这个程序了，但我不太确定应该用什么算法来消除“不重要”的单词。我的想法是解析这个句子(我目前正在使用斯坦福分析器)，并根据这个词对每个单词的意义有多重要来分配权重，然后开始删除权重最低的单词。我将继续这样做，检查原始树和新树有多“不同”。我将继续删除权重最低的单词，直到两棵树太不同为止(我将通过每个用户一次的“校准”过程来确定某个常量)。最后，我将对缩短句中的每一个单词进行分析，并尝试用一个更简单或更短的同

浏览 4提问于2016-11-24得票数 3

回答已采纳

1回答

为什么spark.ml.feautures.Word2Vec要将句子向量化而不是单个单词？

apache-spark、word2vec

在理解星火中的Word2Vec与gensim 1有何不同的过程中，我对Spark (参考链接：https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec)中的例子感到非常困惑，我想知道为什么它们不是转换单个单词，而是转换整个句子。word2vec的目的不是将单个单词嵌入向量空间吗？为什么要嵌入整个句子？如何对word2vec进行适当的训练，然后在星火中应用单个单词？

浏览 0提问于2018-07-27得票数 7

回答已采纳

1回答

如何从例句列表中提取出意义/意图相似的句子

python-3.x、nlp、gensim、doc2vec、sentence-similarity

我有客户和顾问之间的聊天互动话语，我想知道顾问的互动是否包含以下列表中的特定句子或类似的句子：我在顾问交互中寻找的例句 ["I would be more than happy to help you with this", "I would be happy to look over the account to see how I can help get this sorted out for you", "I’d be more than happy to look into this for you!", "Oh, I see

浏览 2提问于2020-04-26得票数 2

回答已采纳