如何在Python中获取两个字典值来查找余弦相似度？ - 腾讯云开发者社区

、、、

基本上，我在Python中有一个dict，它使用字符串键和int数组作为值。 dict = {"Option1Results" : [4, 1, 5, 2, 4], "Option2Results" : [11, 44, 2, 1, 5], .... } 我想在这个字典上实现基于值的交集的层次聚类。例如，假设Option1Results和Option4Results共享大约70%的相同整数，然后将它们聚集在一起。除了遍历字典并逐个比较值之外，还有什么方法可以做到这一点吗？

浏览 10提问于2017-07-25得票数 1

1回答

使用NLTK将两个字符串匹配在一起？

、、、

因此，我试图编写一个包含两个字符串的程序，例如： "I like pizza better cold" 和 "I really enjoy pizza when it is chilled" 找出这两件事是否相配，比如： "I like pizza better cold" 和 "Pizza really sucks." 上面的内容就不匹配了。我已经使用了Python可以使用的NLTK语言来完成这个任务。我只是想知道有没有人曾经做过这样的事情，有什么建议吗？NLTK是要走的路吗？我应该使用什么功能或规格？我正在考虑将字符串拆分

浏览 2提问于2016-01-18得票数 3

回答已采纳

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。第一步是构造文档的成对相似矩阵100X100。我的问题是：衡量两个文档之间相似性的通用方法是什么？谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

、

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

如何高效地解码PyTorch中的嵌入？

、、、

我是Pytorch和RNN的新手。我正在学习如何使用RNN预测数字，作为视频中的教程：在他的代码中，他使用python 3并进行如下解码： out_unembedded = out.view(-1, hidden_size) @ embedding.weight.transpose(0,1) 我正在使用Python 2，并尝试以下代码： out_unembedded = out.view(-1, hidden_size).dot( embedding.weight.transpose(0,1)) 但它似乎不正确，然后我尝试这样解码： import torch import torch.nn

浏览 0提问于2018-01-02得票数 1

1回答

如何在Python中找到与sklearn管道的最佳匹配

、

我已经使用TfidfVectorizer和TruncatedSVD建立了管道。我用滑雪板训练模型，利用余弦相似度计算两个向量之间的距离。这是我的密码： def create_scikit_corpus(leaf_names=None): vectorizer = TfidfVectorizer( tokenizer=Tokenizer(), stop_words='english', use_idf=True, smooth_idf=True ) svd_model = Truncate

浏览 4提问于2015-07-06得票数 0

回答已采纳

1回答

gensim similar_by_word函数的相似度是多少？

基因similar_by_word函数的相似性是多少？我在这里读到了基因similar_by_word函数： similar_by_word函数返回一个序列(word，相似性)。这里的相似性定义是什么?它是如何计算的？

浏览 0提问于2019-02-11得票数 0

回答已采纳

2回答

如何在spark mllib中进行基于项目的推荐？

、、、

在Mahout中，支持使用API方法进行基于项目的推荐： ItemBasedRecommender.mostSimilarItems(int productid, int maxResults, Rescorer rescorer) 但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供： MatrixFactorizationModel.recommendProducts(int user, int num) 有没有一种方法可以根据类似的产品获得推荐产品，而不需要提供用户id信息，就像mahout执行基于项目的推荐一样。

浏览 1提问于2014-12-18得票数 8

1回答

lucene是如何构建VSM的？

、、、、

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。据我所知，VSM是一个矩阵，每个术语的TFIDF值都被填充。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先构建的VSM，查找最相似的文档(基本上是计算两个文档或查询与文档之间的相似性)通常很耗时(假设有数百万个文档，因为必须计算每个人的相似度)，但是lucene似乎真的很快。我想这也与它如何在内部构建VSM有关。如果

浏览 7提问于2014-02-14得票数 1

回答已采纳

1回答

两个文档之间的不同特征

、、、

我试图找出这两份文件之间的不同之处。我正在使用gensim，到目前为止已经获得了相似度分数。有没有办法知道两个文档之间的相异分数和相异特征？如何评估它？

浏览 1提问于2018-07-03得票数 0

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

、、、

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

1回答

将字典项加载到spaCy NLP中

、

我正在努力寻找一种有效的方法来将python字典中的所有条目加载到spaCy NLP中。我的目标是创建一个相似性函数，它可以从dict1中获取一个元素，并从dict2中返回最相似的元素。因为我是同时使用python和spacy的新手，所以我只想到循环遍历dict1中的每一项，然后对dict2的每个元素执行dict1_item = nlp(item)，然后执行dict2_item = nlp(item2)，最后执行similarity(dict1_item[dict2_item]) 我还没有完全实现这种方法，因为大量的循环给了我一个暗示，它将是令人难以置信的缓慢。在数据方面，我比较了大约30

浏览 2提问于2019-04-23得票数 0

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

在比较不同文档对之间的余弦相似度时，是否需要调整长度？

、、

假设我有两个文档，A和B，每个文档有两个版本，1和2。我计算(A1，A2)和(B1，B2)的余弦相似度。设Sa =余弦(A1，A2)，Sb =余弦(B1，B2)。如果Sa < Sb，我可以说文档A比文档B有更大的变化或更新吗？一篇论文指出：“一对文档越长，两个文档中包含一个单词的可能性就越大，导致文档不同的可能性较低(有关分析证据，请参阅附录B)。”论文可以在上找到。这是真的吗？由于词汇表的大小有限，这一说法对于Jaccard相似性可能是正确的。但是，余弦相似性是一个角度，从直觉上讲，文档的长度并不重要。如果这是真的，那么调整长度的相似性分数的最佳方法是什么，以便我可以在不同的文档

浏览 0提问于2019-05-05得票数 0

1回答

一个恰当的向量相似度指标

、、

我正在尝试调整余弦相似度，以确定两个向量相对于条目的相似度。由于所获得的度量在向量尺度{(0，1，2)和(0，2，4)具有余弦相似度1}下是不变的，那么扩展相似性度量以说明初始向量尺度的方法是什么？我想乘以min{|v1|，|v2|}/max{|v1|，|v2|}，其中|v|表示向量v范数，以保持-1和1的界限。任何建议都是非常感谢的。

浏览 2提问于2012-01-06得票数 1

回答已采纳

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

、、、、

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的一个证据是，我们在训练后得到的词向量的范数实际上是有意义的。那么，为什么人们在计算两个单词之间的相似度时仍然使用余弦相似度而不是点积呢？

浏览 132提问于2019-01-29得票数 7

2回答

协同过滤中分类变量相似度的计算

、、

我正在尝试构建一个使用协作过滤的推荐系统。我有用户项数据集.我无法找到相似的用户之间的相似性，因为我不能使用欧几里德/余弦距离将无法在这里工作。，如果我将分类变量转换为0，1，则无法计算距离。请您在python中提出处理分类数据的推荐算法，好吗？

浏览 7提问于2019-10-14得票数 0

3回答

如何计算模糊字符串匹配中的分数？

、

我想知道计算两个字符串之间模糊匹配分数的数学逻辑和公式。假设我有两个字符串s1和s2，我想在python中使用模糊匹配。我知道像fuzzywuzzy这样的python库可以做到这一点。但我想知道模糊匹配方法和比率计算背后的精确数学和逻辑。

浏览 2提问于2020-10-17得票数 0

回答已采纳

2回答

两个矩阵之间的余弦相似度计算

、、

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

、、、

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

2回答

使用相同源的余弦相似和完全不同的结果

、、、、

我正在学习单词嵌入和余弦相似性。我的数据是由两组相同的词组成的，但用的是两种不同的语言。我做了两次测试：我用单词向量的平均值来度量余弦相似度(我认为它应该被称为软余弦相似度)。我用单词向量测量了余弦的相似性。我是否应该期望获得同样的结果？我注意到有时我有两个相反的结果。因为我是新来的，所以我想弄清楚我是否做错了什么，或者背后是否有解释。根据我所读到的，软余弦相似度应该比通常的余弦相似度更准确。现在，是时候给你展示一些数据了。不幸的是，我不能发布我的一部分数据(文字本身)，但我会尽我最大的努力给你的信息，我可以给你。在此之前的一些其他细节：我使用FastText

浏览 3提问于2019-07-24得票数 0

回答已采纳

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

归一化基于tf-idf计算的余弦相似度值

、、、

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

如何使用python使用StanfordNER对命名实体进行聚类

、、、、

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

用户推荐的余弦相似度

、

余弦相似度是根据对问题的回答来判断两个用户是否相似的好方法吗？我试图让用户回答10个问题，并将这些回答解析为一个10维的整数向量。然后我计划使用余弦相似度来寻找相似的用户。我考虑将每个问题解析为一个整数，并将这些整数相加，以将每个用户解析为一个整数，但这种方法的问题是，相似性度量不是特定于问题的:换句话说，如果一个用户对问题1的答案解析为5，对问题2的答案解析为0，而另一个用户对问题1的答案为0，问题2的答案为5，则两个用户都“和为5"，但每个问题的答案从根本上都不同。那么，基于每个属性，余弦相似性会给出一个很好的相似性度量吗？

浏览 1提问于2017-08-15得票数 1

1回答

Python中的自然语言处理

如何使用python中的自然语言处理，根据过去训练过的问题(包括问题的摘要和描述)，为新的未见问题找到类似类型的问题

浏览 1提问于2018-08-14得票数 0

2回答

计算句子集合之间的语义相似度

、、、、

我有两组短消息，我想计算这两组短消息之间的相似度，并根据它们的语义相似度来识别它们是否在谈论相同的子主题。我知道如何使用成对相似度，我的问题是我想计算两个集合中所有句子之间的总体相似度，而不是两个句子的相似度。有没有办法使用tf-idf或带有余弦相似度的word2vec/doc2vec来计算总分？

浏览 4提问于2019-08-02得票数 0

1回答

NLP提取关联词

、、

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

1回答

如何通过LightFM python包生成用户对用户推荐？

、、、、

我正在通过以下代码创建一个数据集： from lightfm.data import Dataset from lightfm import LightFM dataset = Dataset() dataset.fit((row['id'] for row in user_queryset.values()), (row['id'] for row in item_queryset.values())) num_users, num_items = dataset.interactions_shape() (intera

浏览 37提问于2019-02-17得票数 2

回答已采纳

3回答

Python cosine_similarity不适用于NaNs的矩阵

、、、、

需要找到python函数，其工作方式类似于R func： proxy::simil(method = "cosine", by_rows = FALSE) 即，通过逐对计算数据行之间的余弦距离来寻找相似矩阵。如果NaNs存在，则应该在这2行中删除带有NaNs的确切列。 upd.我还尝试从中删除循环中每对行中的，使用余弦 func。它给出了与R相同的结果，但工作时间:(

浏览 0提问于2019-01-17得票数 1

回答已采纳

1回答

使用tensorflow获取负余弦距离

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

帮助寻找关于高温超导分类的研究讨论

、、、

我的问题是关于这个问题的理论，而不一定是语法。我想知道这里是否有人有自动化HTS (协调税表)分类的经验，特别是训练分类器来预测应该分配给产品的HTS代码？这些指定的规则存储为“解释”产品的描述性文本数据。在我看来，这使得预测一个部分将如何被分类变得非常困难。就上下文而言，NLP似乎大量地参与了这一过程，但由于这些描述涉及高度基数，而且从一种描述到另一种描述的重叠程度很高，是否有任何最佳做法来成功地进行这样的预测？同样，我也很难找到任何关于这件事的公开研究。看来，在这方面几乎所有的进展都是在公司的闭门造车的情况下进行的。我理解他们为什么会做出这样的决定，但我感到惊讶的是，考虑到它对全球范围

浏览 0提问于2019-11-04得票数 1

1回答

理解两个TF-IDF向量相似的原因

、、

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

1回答

尝试计算搜索词之间的相似度

、、

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

1回答

用python中的lambda替换嵌套的'for loop‘

、、

我正在处理一项任务，需要检查两个dataframe列之间的余弦相似性。我使用两个for循环分别迭代data1和data2的两列。 for i in range(0,len(input_df)): for j in range(0,len(data1)): ##check similarity ratio similarity_score= cosine_sim(input_df['Summary'].iloc[i],data1['Summary'].iloc[j]) print(similarity_s

浏览 21提问于2021-08-03得票数 0

1回答

我可以使用什么样的机器学习算法？

我有一组关于疫苗的推特数据。它们是从API中收集的，因为它们有“流感、麻疹、MMR、疫苗”等关键词。我需要找到专门关于麻疹和今年2月加州爆发的推特。仅仅在数据中搜索“加利福尼亚”和“麻疹”这样的词是不够的，因为像“帕洛阿尔托的MMR疫苗接种率正在上升”这样的推文是关于麻疹和加州的，但不会被简单的搜索捕捉到。有什么无人监督的算法可以帮我吗？

浏览 0提问于2015-05-14得票数 2

1回答

有没有办法在具有不同值的句子嵌入之间创建余弦相似度矩阵？

、、、、

我想创建一个大小为7x7的余弦相似度矩阵，其中矩阵的每个元素都是两个大小为1024的数组的余弦相似度。 [[ 0.1463873 0.6160218 -0.8804966 ... 1.520877 0.09114664 0.14081596]] [[ 0.54208326 0.7649026 -1.4366877 ... 1.6818116 -0.20427406 0.3631045 ]] [[ 0.32065052 0.67767006 -1.2465438 ... 0.6658634 -0.17746 0.39568862]] [[ 0.

浏览 1提问于2020-09-15得票数 0

2回答

使用Pandas Dataframe时，Scipy Cosine相似性非常慢

、、、、

几天前，我开始通过做一个项目来学习Python。我从我的数据中准备了两个数据帧，分别是User和Item Dataframe。用户DF有17k个不同的用户，项目DF有1500张专辑。我正在使用协同过滤来获取两个数据帧之间的余弦相似度，如下所示 from scipy.spatial.distance import cosine for i in range(0,len(user_normalized.index)-1): for j in range(0,len(item_matrix.index)-1): item_matrix_cpy.at[j, 'cosine'] =

浏览 2提问于2018-05-23得票数 0

1回答

布尔数据的相似度计算

、

我试图实现简单的推荐系统，并试图理解不同的方法来实现我的目标。我的数据集由用户和他们购买的物品组成。我有关于什么项目的用户购买的信息和这些项目的描述形式的标题。起初，我想我可以使用基于用户的协作过滤方法，但我仍然坚持这样做。我不太清楚如何计算布尔数据的相似性。例如，当我有这样的数据时 1 2 3 4 A 0 1 0 1 B 0 1 0 1 C 1 0 1 1 D 0 1 0 0 E 0 0 1 1 我想向用户E推荐项目，那么在这种情况下我应该如何计算相似性呢？例如，我从python中的scikit学习模块中选择了余弦相似性。但我不太清楚

浏览 0提问于2017-12-04得票数 2

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

、、、、

我有一个包含5000项(行)和2048个特性(列)的dataframe。我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度。但对于大量的数据，它变得缓慢。或者还有其他快速和准确的距离度量吗？

浏览 7提问于2019-11-26得票数 0

1回答

如何提高CountVectorizer中单词的权重

、、、

我有一个我标记的文档，然后我取另一个文档，通过计算它们的余弦相似度来比较这两个文档。然而，在我计算它们的相似性之前，我想先增加其中一个单词的权重。我正考虑把这个单词的数量增加一倍，但我不知道该怎么做。假设我有以下..。 text = [ "This is a test", "This is something else", "This is also a test" ] test = ["This is something"] 接下来，我定义停止词，并为这两组文档调用CountVectorizer。

浏览 0提问于2018-04-06得票数 4

回答已采纳

1回答

word2vec的余弦相似性大于1

、、

浏览 0提问于2016-12-29得票数 6

1回答

Spark dataframe中列之间的余弦相似度

、、、

浏览 42提问于2019-02-28得票数 1

1回答

Word2Vec Python相似性

、、、、

我用这个代码做了一个单词嵌入： with open("text.txt",'r') as longFile: sentences = [] single= [] for line in longFile: for word in line.split(" "): single.append(word) sentences.append(single) model = Word2Vec(sentences,work

浏览 0提问于2018-03-20得票数 4

回答已采纳

2回答

NLP:为教科书中的特定术语策划定义摘要

、

我希望能够为教科书中的特定术语策划定义摘要。例如，从生物学教科书中，我希望能够对“线粒体”这个词形成一个简洁的总结。我已经尝试过了，首先在教科书中解析包含单词“线粒体”的所有句子，并通过TextRank和LexRank等摘要算法输入这些句子，但这些算法无法很好地确定“定义”句子。通过定义摘要，我指的是有用的句子，就定义而言。例如，句子“线粒体是细胞的动力”将是一个定义句子，而句子“真菌细胞也包含线粒体和一个复杂的内膜系统，包括内质网和Golgi装置”并不真正与线粒体的定义相关。如有任何帮助或线索，我们将不胜感激

浏览 1提问于2017-06-26得票数 0

1回答

如何在MALLET中获取两个文档之间的余弦相似度？

、、、

我有一个使用MALLET训练的LDA主题模型，但是我想计算两个文档之间的余弦相似度来获得相似度，但是我不确定我要计算哪个文件的余弦。我的余弦相似度函数运行得很好，但我不确定我在MALLET中比较的是什么。任何帮助都将不胜感激！

浏览 1提问于2017-04-07得票数 0

1回答

用Python计算余弦相似度

、、、

我编写了以下代码来计算一些预处理文档之间的余弦相似性(停止字删除、词干词干和术语频率-逆文档频率)。 print(X.shape) similarity = [] for each in X: similarity.append(cosine_similarity(X[i:1], X)) print(cosine_similarity(X[i:1], X)) i = i+1 但是，当我运行它时，我会收到以下消息： (2235, 7791) [[ 1. 0.01490594 0.11752643 ..., 0.00941571 0.03652551

浏览 1提问于2017-02-01得票数 0

2回答

求和余弦相似矩阵是确定整体相似性的好方法吗？

、

我正在尝试类似的研究摘要，所以我使用word嵌入将单词转换为1x768向量，所以总体上将抽象转化为带有形状的嵌入(#ofword，768)。两个抽象之间的余弦相似性返回一个矩阵(#ofwords1 1，#ofwords1 2)，然后我对其进行总结，以得到一个总体得分。我想知道的是，在一个余弦相似矩阵中对所有值的总结是否真的是确定两个不同文本之间的整体相似性的好方法呢？有没有一种更好，或者更便宜的计算方法来做到这一点？

浏览 0提问于2020-08-26得票数 2