计算两个列表字典之间的相似度最有效的方法是什么？_未计算列表之间的余弦相似度_两个列表之间的距离相似度 - 腾讯云开发者社区

、

我用刮刮爬行了几个欺凌论坛，并将结果作为字典使用。我现在要做的是提取一个句子的关键字，例如He harassed me in the chat，这将给出关键字Harassed和chat，并将这些关键字与我的单词字典进行比较，并为它的相关性分配一个值(在这种情况下，这显然会提供接近1.0的高值，因为它与欺凌非常相关)。我已经把关键词提取下来了，所以现在我只需要知道如何进行比较。我看过使用pandas、scikit和nltk的情况，但它们似乎对多个字段的字典最有效，而我只有一袋单词。有什么NLP库可以帮我吗？如果不这样做，最好的办法是什么？

浏览 0提问于2018-07-15得票数 1

回答已采纳

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

3回答

NLP算法计算最大5-6字句子间的相似度

、、

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约. 。上下文：用户可以创建尽可能多的类别，他希望分组他的照片。我注意到这些类别中有很多是空的，当潜得更深一点时，我看到用户创建的许多类别几乎都有相同的名称，例如，法国对法国法郎夏季对夏季海滩和海滩(心脏表情) 一种假设是，他们创建一个带有拼写错误的类别，而不是删除，而是创建一个新的类别。目标：量化用户级别上高度相似的类别对的数量。所以我的问题基本上有两个方面：哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相

浏览 0提问于2022-04-01得票数 1

3回答

仅获取最相似的两个列表

、、

我有一个二维列表。我想从list_j中获取两个元素，即与list_g一致性最高的两个列表。我尝试过一些方法，但是如何获得匹配程度最高的两个列表呢？ list_j = [[100,2,3], [4,98,99], [5,99,98]] list_g = [100,99,98] import difflib list_ratio = [] for element_g in list_j: sm=difflib.SequenceMatcher(None,element_g,list_g) list_ratio.append(sm.ratio()) print(list_ratio)

浏览 30提问于2021-01-09得票数 1

回答已采纳

1回答

NLP -如何在问题列表上获得常见问题的列表

、、、、

所有问题都在标题中，所以基本上我有一个列有几个问题作为字符串的列表，想法是在第一个问题列表中获得另一个常见问题列表。我不知道这是否有意义，但我会尝试解释一下我尝试过的方法。该方法包括计算列表中的每个元素与其他元素的余弦相似性，但不包括正在处理的元素，以防止使用相同的元素执行计算。也就是说，将创建一个字典，其中包含作为正在处理的每个元素的索引的键，而值将是每个元素的索引列表，这些索引的余弦相似性超过了键索引的阈值。一旦创建了字典，键的值列表长度最高的索引将被认为是常见的问题，在此之后，您可以选择前10位或任何您想要的数字。首先，一个缺点是，知道我有+60000个问题(14天)，执行起来

浏览 2提问于2022-06-17得票数 0

1回答

mahout推荐自定义项目相似度

、、

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

为什么用gensim计算相似度需要字典的大小？

、、

为了使用gensim.similarities.docsim.Similarity类计算单词之间的相似度，需要提供语料库和字典的大小。在我的例子中，语料库是使用word2vec模型计算的词向量。我想知道为什么gensim需要这么大的字典？另外，如果这里需要用于创建word2vec模型的字典的大小，或者语料库的字典的大小，我想要计算其相似度。

浏览 0提问于2020-06-23得票数 0

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

、、

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。例如，查询： A B C D E F 3 2 NaN 5 NaN 4 df = A B C D E F 2 1 3 NaN 4 5 1 NaN 2 4 NaN 3 . . . . . . . . . . . . 因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，

浏览 0提问于2019-02-11得票数 5

回答已采纳

4回答

在文本中查找与给定关键字相似度最高的子串

、、、

假设文本为I love apples, kiwis, oranges and bananas，searchString = kiwis and bananas，为。如何有效地在text中找到与searchString相似度最高的子字符串。基本上，我试图找到部分文本(文本有很高的错误，拼写错误，额外的符号和空格)，这与我的关键字列表相匹配。

浏览 5提问于2016-09-14得票数 14

1回答

如何从例句列表中提取出意义/意图相似的句子

、、、、

我有客户和顾问之间的聊天互动话语，我想知道顾问的互动是否包含以下列表中的特定句子或类似的句子：我在顾问交互中寻找的例句 ["I would be more than happy to help you with this", "I would be happy to look over the account to see how I can help get this sorted out for you", "I’d be more than happy to look into this for you!", "Oh, I see

浏览 2提问于2020-04-26得票数 2

回答已采纳

1回答

比较Orange中的文件(文本源)

、

比较橙色文本文件的最佳方法是什么？如何找到两个文本之间的区别或相似之处，以及主节点之间的关系？

浏览 0提问于2019-05-24得票数 2

1回答

用于稀疏矩阵计算的枕木还是熊猫？

、、、

我必须计算稀疏矩阵中向量之间的大量相似计算。当前用于此任务的最佳工具scipy-sparse或pandas是什么？

浏览 5提问于2013-10-04得票数 2

9回答

如何在相似性度量和差异度量(距离)之间进行转换？

、、

有没有在相似性度量和距离度量之间进行转换的通用方法？考虑一个相似性度量，比如两个字符串共有的2-gram的数量。 2-grams('beta', 'delta') = 1 2-grams('apple', 'dappled') = 4 如果我需要将其提供给期望差异度量的优化算法，比如Levenshtein距离，该怎么办？这只是一个例子……我正在寻找一个通用的解决方案，如果有的话。比如如何从Levenshtein距离到相似性度量？感谢您提供的任何指导。

浏览 0提问于2010-11-01得票数 12

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

从大型文本语料库构建图表

、、、、

我得到了大量的文件，我应该对这些文件进行各种分析。由于文档将作为最终产品的基础，所以我考虑用这个文本语料库构建一个图表，每个文档对应于一个节点。构建图形的一种方法是使用模型(如use )首先查找文本嵌入，然后在相似度超过给定阈值的两个节点(文本)之间形成一个链接。然而，我认为最好使用一种基于纯文本相似性度量的算法，即不将文本“转换”为嵌入的算法。和以前一样，如果两个节点(文本)的文本相似性超过了给定的阈值，我将在它们之间形成一个链接。现在，问题是:衡量两种文本相似性的最简单方法是什么，更复杂的方法是什么？我想先从这两篇文章中提取关键词，然后计算Jaccard索引。任何关于如何实现这一目标的

浏览 0提问于2022-05-21得票数 1

回答已采纳

1回答

区分不同的最佳方法:欧几里德距离，余弦距离，还是简单减法？

、、、、

我是数据科学的新手，目前正在学习用Python可以做的不同技术。目前，我正在使用Spotify的API来测试我自己的播放列表。的目标是在两个不同的播放列表之间找到最不同的特性. 我的问题是，在这两个播放列表之间找出最不同的特性的最好方法是什么？首先，我得到了每个播放列表中的所有曲目，以及它们各自的特点。然后，我计算了每个特性的平均值。这是我最后得到的DataFrame。数据值是所有曲目功能到各自播放列表的方法。 playlist1 playlist2 -------------------- danceabil

浏览 0提问于2018-11-06得票数 5

回答已采纳

1回答

文档与文档子集的Doc2vec最大相似度得分

、、、

我是doc2vec的新手。我有一个包含两列的数据帧:一列是id (patent_number)，另一列是清理和标记化的文本(clean_description)。对于每个id，我需要在第三列(max_similarity)中生成clean_description与属于patents_snow_banch列表中id的clean_description子集的相似度的最大值，该列表用于标识子数据帧。以下是数据框中7528个观察值的摘录： clean_description patent_number 0 [&#

浏览 25提问于2020-06-20得票数 0

2回答

"TypeError: Bool是不可迭代的“在带布尔条件的任何()迭代中

、

在Python2.7中，我希望检查一个字符串和列表中的字符串之间的相似性，直到找到匹配为止。 from difflib import SequenceMatcher def similar(a, b): return SequenceMatcher(None, a, b).ratio() correctList = ["thanks", "believe", "definitely"] myString = "thansk" for correctWord in correctList: ratio = s

浏览 6提问于2016-06-09得票数 0

回答已采纳

1回答

较小数据集相对于较大数据集的百分比

、

我有两个数据集，它们是多维实值向量的列表。一个数据集(称为A=\{x_1, x_2, x_3, ..., x_n\} )具有较大的大小，另一个数据集(称为B=\{x_1, x_2, x_3, ..., x_m\})。另外，另一个则要小得多，并且是更大的(B \subset A)的子集。一个较小的B，来自于一些抽样过程，我想要做的是计算，小的(从抽样中得到)的哪个部分在较大的范围内。另外，由于这些是实值向量，所以我不能逐个直接比较它们，所以可以使用聚类算法。而且，一个数据集的大小比另一个|A| >> |B|大。

浏览 0提问于2021-01-12得票数 2

1回答

面向大文档相似度的通用句子编码器

、、、

我需要创建一个“搜索引擎”体验:通过一个简短的查询(几个单词)，我需要在数千个文档的语料库中查找相关文档。在分析了几种方法后，我使用谷歌的通用句子编码器获得了非常好的结果。问题是我的文档可能会很长。对于这些非常长的文本，性能似乎正在下降，所以我的想法是将文本分成句子/段落。因此，我最终获得了每个文档的向量列表(表示文档的每个部分)。我的问题是:有没有一种最先进的算法/方法来从向量列表中计算得分？我真的不想把它们合并成一个，因为它会产生和以前一样的效果(相关部分会在文档中被淡化)。有没有评分算法来总结查询和文本不同部分之间的多重余弦相似性？重要信息:我可以有短文本和长文本。所以对于一个文

浏览 1提问于2019-12-24得票数 6

2回答

求和余弦相似矩阵是确定整体相似性的好方法吗？

、

我正在尝试类似的研究摘要，所以我使用word嵌入将单词转换为1x768向量，所以总体上将抽象转化为带有形状的嵌入(#ofword，768)。两个抽象之间的余弦相似性返回一个矩阵(#ofwords1 1，#ofwords1 2)，然后我对其进行总结，以得到一个总体得分。我想知道的是，在一个余弦相似矩阵中对所有值的总结是否真的是确定两个不同文本之间的整体相似性的好方法呢？有没有一种更好，或者更便宜的计算方法来做到这一点？

浏览 0提问于2020-08-26得票数 2

1回答

用python中的lambda替换嵌套的'for loop‘

、、

我正在处理一项任务，需要检查两个dataframe列之间的余弦相似性。我使用两个for循环分别迭代data1和data2的两列。 for i in range(0,len(input_df)): for j in range(0,len(data1)): ##check similarity ratio similarity_score= cosine_sim(input_df['Summary'].iloc[i],data1['Summary'].iloc[j]) print(similarity_s

浏览 21提问于2021-08-03得票数 0

1回答

NLP如何获取两个文档之间的差异

、、、、

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

如何在Python中找到与sklearn管道的最佳匹配

、

我已经使用TfidfVectorizer和TruncatedSVD建立了管道。我用滑雪板训练模型，利用余弦相似度计算两个向量之间的距离。这是我的密码： def create_scikit_corpus(leaf_names=None): vectorizer = TfidfVectorizer( tokenizer=Tokenizer(), stop_words='english', use_idf=True, smooth_idf=True ) svd_model = Truncate

浏览 4提问于2015-07-06得票数 0

回答已采纳

1回答

如何高效地解码PyTorch中的嵌入？

、、、

我是Pytorch和RNN的新手。我正在学习如何使用RNN预测数字，作为视频中的教程：在他的代码中，他使用python 3并进行如下解码： out_unembedded = out.view(-1, hidden_size) @ embedding.weight.transpose(0,1) 我正在使用Python 2，并尝试以下代码： out_unembedded = out.view(-1, hidden_size).dot( embedding.weight.transpose(0,1)) 但它似乎不正确，然后我尝试这样解码： import torch import torch.nn

浏览 0提问于2018-01-02得票数 1

1回答

构建产品推荐系统、协同过滤和图形库

、、

当我读到使用协作过滤构建推荐系统时，他们通常不会谈论像neo4j这样的图形数据库。图形数据库是否足以实现最好的推荐系统？他们似乎可以比这里提到的方法更容易地实现实时建议：https://eugeneyan.com/writing/real-time-recommendations/ 我应该意识到的任何缺点，或者像neo4j这样的东西完全适合这个任务，而不需要其他任何东西？

浏览 16提问于2021-07-09得票数 0

回答已采纳

1回答

如何处理输入和输出都是图像的数据(特别是图像数据)？

、

我以图像的形式输入数据集，输出数据也是图像而不是被标记的数据。因此，它既不是分类问题，也不是回归问题。输入和输出干扰之间可能存在一定的相关性，我希望我的模型能够了解这种相关性。我正在努力寻找适当的方法来实现这一点。有人能帮忙吗？

浏览 0提问于2021-07-02得票数 1

3回答

句子间的语义相似度

、

我在做一个项目。我需要任何开源工具或技术来找到两个句子的语义相似度，其中我给出两个句子作为输入，并接收分数(即语义相似度)作为输出。有什么帮助吗？

浏览 3提问于2010-01-11得票数 8

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。第一步是构造文档的成对相似矩阵100X100。我的问题是：衡量两个文档之间相似性的通用方法是什么？谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow

、、、、

我训练了一个使用三重态损失的暹罗神经网络。这很痛苦，但我想我成功了。然而，我很难理解如何用这个模型来进行评估。 SNN： def triplet_loss(y_true, y_pred): margin = K.constant(1) return K.mean(K.maximum(K.constant(0), K.square(y_pred[:,0]) - 0.5*(K.square(y_pred[:,1])+K.square(y_pred[:,2])) + margin)) def euclidean_distance(vects): x, y = vects

浏览 12提问于2022-04-22得票数 6

回答已采纳

3回答

部分未知向量的最近邻

、、、、

假设我们有人员列表，并且希望找到像person X这样的人。特征向量有3项[weight, height, age]，在我们的列表中有3人。注意，，我们不知道人的身高C，。 A: [70kg, 170cm, 60y] B: [60kg, 169cm, 50y] C: [60kg, ?, 50y] 找到最接近A的人的最好方法是什么？我猜让我们计算高度的平均值，用它代替未知的值。因此，假设我们计算出170cm是身高的平均值，并将person C重新定义为[60kg, ~170cm, 50y]。现在我们可以找到离A最近的人了，那就是A, C, B。问题现在的问题是，我们把C和猜

浏览 4提问于2017-09-23得票数 1

1回答

如何将文本和分类数据混合在一起的数据进行聚类？

、、、

我有一组字符串，每个字符串都有与之相关的分类信息。但是，分类信息并不总是很好，所以我需要根据文本内容和类别对消息进行聚类。做这件事最好的方法是什么？

浏览 0提问于2015-05-18得票数 3

3回答

从字符串列表中，如何获得python中最奇怪的单词/字符串？

我有一个字符串列表： ['twas', 'brillig', 'and', 'the', 'slithy', 'toves', 'did', 'gyre', 'and', 'gimble', 'in', 'the', 'wabe', 'all', 'mimsy', 'were', 'the', 'borogoves&#

浏览 0提问于2012-04-12得票数 1

1回答

列表比较

我想计算两个列表之间的相似性百分比作为示例，如果我有两个描述图书属性list1(作者，品牌，isbn，类别，数量)list2(作者，价格，品牌)的列表我看到了这个函数similarity= n/m，其中n是匹配的概念的数量，m是两个列表中较小的基数我不知道它是否正确我看到m必须是包含更多概念的列表，你同意吗？

浏览 3提问于2010-03-06得票数 0

1回答

欧几里德距离是否衡量语义相似性？

、、、、

我想衡量句子之间的相似度。我可以使用sklearn和欧几里得距离来衡量句子之间的语义相似度吗？我还读到了关于余弦相似性的文章。有人能解释一下它们与度量的区别吗?使用的最佳方法是什么？

浏览 0提问于2018-11-11得票数 2

1回答

潜在语义分析与学习

、

我正在尝试写一个脚本，在那里我将计算几个文档的相似性。我想用LSA来做。我已经找到了下面的代码，并对其做了一些修改。我有一个输入3个文档，然后输出一个3x3矩阵，其中包含它们之间的相似性。我想做同样的相似度计算，但只对sklearn库。这有可能吗？ from numpy import zeros from scipy.linalg import svd from math import log from numpy import asarray, sum from nltk.corpus import stopwords from sklearn.metrics.pairwise import

浏览 0提问于2013-09-25得票数 6

回答已采纳

1回答

相似和不相似的实例的比较

我根据用户的行为对相似和不相似的实例进行标记。每个实例都有很多特性。我没什么办法给这对夫妇贴上标签。我知道想要评估哪些标签方法在组中产生最均匀的分布，或者判断这两个组是否来自相同的分布。我主要是在找一个统计指标。有什么建议吗？

浏览 0提问于2020-01-12得票数 2

回答已采纳

1回答

用GA求解TSP :距离矩阵应该加速运行时间吗？

、、、、

我试图用Python编写一个GA来解决TSP问题。我想加快速度。因为现在，需要24秒才能运行200代，其人口大小为200。我用的是29城市的地图。每个城市都有一个id和(x，y)坐标。我尝试实现一个距离矩阵，它只计算一次所有的距离，并将其存储在一个列表中。因此，它不使用sqrt()函数1M+时间来计算距离，而是只使用函数406次。每次需要两个城市之间的距离时，都会使用两个城市的id作为索引从矩阵中检索。但即使有了这个，也同样需要时间。我认为sqrt()比索引列表要贵得多。不是吗？一本字典能让它更快吗？

浏览 1提问于2018-12-09得票数 0

3回答

优化字典中每个键之间的比较(Python)

、、

因此，我想要将字典中的每个键相互比较，如果一个键恰好与另一个键太相似(基于模糊相似度)，我想将这两个条目合并为一个键(这样一个键将被删除，而值将被相加)。有没有更有效的方法来做到这一点？ D是包含{"labels"：句子列表}的字典 # First I create a new dictionary that has a dictionary as value which includes the key and value # of the old dictionary. It feels a bit redundant but afaik you can&#

浏览 5提问于2021-02-15得票数 0

5回答

余弦相似性与Levenshtein距离

、、、

我想知道他们之间的区别是什么，在什么情况下他们工作得最好？根据我的理解：余弦相似是度量内积空间中两个非零向量之间相似性的度量，它度量了它们之间夹角的余弦。0°的余弦为1，对于(0，π)半径的任意角度都小于1。列文希廷距离是一个用于测量两个序列之间差异的字符串度量。非正式地说，两个单词之间的Levenshtein距离是单字编辑的最小数量。我的问题是什么时候才能在Levenshtein距离上使用余弦相似性？ 1：https://en.wikipedia.org/wiki/Cosine_similarity#:~:targetText=Cosine%20similarity%20is%20

浏览 0提问于2019-11-18得票数 5

回答已采纳

1回答

理解两个TF-IDF向量相似的原因

、、

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

1回答

潜在语义分析如何处理语义

、

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

Spacy使用什么来创建向量表示？

、、、、

Spacy创建向量表示的内置方法是什么？我在我的语料库上执行了NLP，然后使用.similarity (余弦相似度)来绘制出“相似”的文档。然而，我不确定spacy使用什么方法来创建向量表示。据我所知，我认为这可能是负采样的word2vec跳过语法，然而，我想确定！

浏览 7提问于2017-07-07得票数 1

1回答

如何将一组单词分类为给定的标签之一

、

我有三个标签:娱乐，平静和精力充沛。我得到了这样的词集: Set1 ={云天人，植物闪光摄影，快乐短裤，草休闲娱乐} Set2 ={植物绿色，自然景观，自然环境，树枝，树木，人在自然界，树形树木，落叶}我想把这些词分类成一个标签。你们觉得怎么样？Set1应该贴上精力充沛的标签，Set2应该贴上平静的标签。

浏览 0提问于2021-05-22得票数 2

回答已采纳

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

计算两个列表上的Jaccard相似度以返回Python中的最高相似度词

、、、、

我有一个巨大的列表(包含250,000字)，这是一个独特的词。(比方说list1) 我还有另一张名单，里面有5个拼错的单词。(比方说list2) 我需要找到jaccard的相似性(基于变化的ngram)。在两个列表之间，并从list1返回最接近的匹配单词。通过我在这个网站上找到的几个答案，我能够：通过一个函数将两个列表拆分为ngram。计算第二个列表的第一个元素和第一个列表的jaccard相似度。这是给我一个有效的答案。但是，我无法在此基础上从list1返回最接近匹配的单词。我知道我需要将ngram函数应用到我的list1的每个元素。然后用list2计算jaccard相似

浏览 4提问于2020-06-03得票数 0

2回答

序列号的模式匹配算法

、

我有两个csv文件，其中包含设备的序列号。其中一个有直接从设备扫描到的正确序列号。另一份报告来自我们的库存系统。我想要交叉引用这两个列表，看看两个列表中都有哪些项目，同时我想检查序列号是否可能匹配。我将在java中编写此程序。示例1：列表A序列号："AGJC-021645“ 表B序列号："AGJC-021645“ 那将是完全匹配的。但这是相当简单的。示例2：列表A序列号："AGJC-01254“ 列表B中可能的匹配项："AGJC-01253“、"AGJC-00254”等。然后，我可以让我的库存人员对它们进行验证。可能是他们把它输入系统时的打字

浏览 1提问于2014-02-18得票数 1

1回答

如何提高CountVectorizer中单词的权重

、、、

我有一个我标记的文档，然后我取另一个文档，通过计算它们的余弦相似度来比较这两个文档。然而，在我计算它们的相似性之前，我想先增加其中一个单词的权重。我正考虑把这个单词的数量增加一倍，但我不知道该怎么做。假设我有以下..。 text = [ "This is a test", "This is something else", "This is also a test" ] test = ["This is something"] 接下来，我定义停止词，并为这两组文档调用CountVectorizer。

浏览 0提问于2018-04-06得票数 4

回答已采纳

3回答

两个表之间的模糊匹配

、、

我有两个表，其中包含客户信息，如姓名和地址。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111 Anurag CH 123 3 Floor CA USA 5001 112 Mike Martin A

浏览 3提问于2017-03-22得票数 0

2回答

两个矩阵之间的余弦相似度计算

、、

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5