函数来查找仅使用非空公共列的行之间的余弦相似度

python、pandas、function、trigonometry

我想编写一个函数，通过仅使用公共列来查找索引行(查询)和数据帧中每隔一行之间的余弦相似度。我面临的问题是，行之间常见的非空列可能不同。我已经尝试用0来替换这些值，就像我之前问过类似问题时所建议的那样，但这不是我正在寻找的输

浏览 8提问于2019-02-20得票数 0

回答已采纳

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

python、pandas、trigonometry

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行</em

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

数据框中行的余弦相似度

r、data-analysis、analysis、cosine-similarity

我有一个数据集，其中每一列都有给定对象的不同参数的概率。第一列是指示对象名称的字符串，而其他所有列都有一个数值。我使用'coop‘包中的cosine()函数来查找对象之间的余弦相似度。理想情况下，我希望函数将每一行解释为单独的向量，并给出每个对象之间的</

浏览 34提问于2020-04-07得票数 0

2回答

如何度量两幅图像之间的余弦相似度

matlab、similarity、image-recognition

我有一个由5张图像组成的群体矩阵，其中有49个提取的显着性特征。我想在Matlab中计算具有相同提取特征的测试图像之间的余弦相似度49。

浏览 4提问于2014-03-16得票数 4

回答已采纳

1回答

用Python计算余弦相似度

text、machine-learning、scikit-learn、cosine-similarity

我编写了以下代码来计算一些预处理文档之间的余弦相似性(停止字删除、词干词干和术语频率-逆文档频率)。

浏览 1提问于2017-02-01得票数 0

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

python、gensim、word2vec、doc2vec

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用

浏览 3提问于2019-07-11得票数 0

1回答

Scipy稀疏矩阵在余弦相似性方面不能有效地存储

python、scipy、out-of-memory、sparse-matrix

我正在尝试使用scipy稀疏矩阵实现余弦相似度，因为我在使用正常矩阵(非稀疏)时遇到了内存错误。然而，我注意到当输入矩阵(观察值)较大时，稀疏和非稀疏矩阵的余弦相似度的内存大小(以字节为单位)几乎相同。我是不是做错了什么，或者，有没有办法解决这个问题？这里的代码中，输入有5%为1，95%为0。np.size(A)) print('memory perce

浏览 0提问于2018-12-10得票数 1

2回答

修正的余弦相似效率

python、arrays、numpy、scikit-learn、scipy

问题所在我试图计算两个数组之间的余弦相似度，但基本公式略有变化。也就是说，我只关心与“引用”数组重叠的组件。例如，如果我们要计算以下两个数组之间的余弦相似度： A = [1 0 1] B = [1 1 0] [0 1 1] [0 1 1] 假设B是引用数组。然后，A将相对于B中的每一行进行更改，以仅包含与该行重叠

浏览 28提问于2019-10-15得票数 0

回答已采纳

2回答

如何在Python中对dict的值进行聚类？

python、python-2.7、dictionary、hierarchical-clustering

基本上，我在Python中有一个dict，它使用字符串键和int数组作为值。[4, 1, 5, 2, 4], ....我想在这个字典上实现基于值的交集的层次聚类例如，假设Option1Results和Option4Results共享大约70%的相同整数，然后将它们聚集在一起。除了遍历字典并逐个比较值之外，还有什么方法可以做到这一点吗？

浏览 10提问于2017-07-25得票数 1

1回答

如何高效地解码PyTorch中的嵌入？

python、artificial-intelligence、pytorch、rnn

我是Pytorch和RNN的新手。我正在学习如何使用RNN预测数字，作为视频中的教程：out_unembedded = out.view(-1, hidden_size) @ embedding.weight.transpose(0,1)out_unembedded = out.view(-1, hidden_size).dot( embedding.weight.transposer

浏览 0提问于2018-01-02得票数 1

1回答

将自定义函数应用于熊猫数据文件中的每个列组合

python、pandas、dataframe、lambda

我试着计算出熊猫数据中每一个列组合之间的余弦相似性。我编写了一个自定义函数来计算余弦相似度，现在需要将它应用于每一对组合列。如果用户没有与其交互，则每列包含0，如果用户与之交互，则包含1。因此，每一行都包含用户的总体查看行为。目前使用的是for循环，但是对于较大的数据样本来说太慢了-例如，我当前的</

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

Spark ml cosine相似度:如何获得1到n的相似度分数

scala、apache-spark、apache-spark-mllib、cosine-similarity、apache-spark-ml

我读到我可以使用RowMatrix附带的columnSimilarities方法来查找各种记录(基于内容)的余弦相似度。dileep manju现在，我已经创建了一个spark-ml管道来计算上面的文本特征(流派，演员)的tf-idf，并在我的管道中使用VectorAssembler将这两个特征组装成一个单独的列" features“

浏览 3提问于2016-10-18得票数 5

1回答

计算两个pandas列之间的向量的余弦相似度？

python-3.x、cosine-similarity

我有以下Pandas Dataframe，需要按行查找余弦相似度。但是我的代码返回一个值矩阵。我需要有一个额外的列和每行的余弦值的输出。

浏览 34提问于2019-08-22得票数 0

1回答

两个火花源数据帧的余弦相似度

python、apache-spark、pyspark、apache-spark-sql

15 .17 .14 18 .86 .09 CustomerID CustomerID CosineCustVal CosineCustVal 15 12 1

浏览 2提问于2018-09-28得票数 1

1回答

两次辐射的余弦相似性

python、arrays、python-2.7、numpy

实际上，我在数组1中存储了200维向量表示的100个样本，在数组2中存储了140个200维向量的样本。现在，我要计算样本之间的相似度向量，并创建一个相似矩阵。对于每个样本，我想计算每个字段组合之间的相似性，并将其存储起来，这样我就可以得到一个15000*24维的数组。前150行是第1列和150行数组2之间的<

浏览 1提问于2018-04-17得票数 1

回答已采纳

2回答

在numpy python中从稀疏矩阵生成密集矩阵

python、arrays、numpy、scipy、sparse-matrix

我有一个Sqlite数据库，其中包含以下类型的模式：此表包含文档中的术语及其各自的计数。(docn,term1 , 10) 这个矩阵可以被认为是稀疏矩阵，因为每个文档包含的项非常少，它们将具有非零值。我如何使用numpy从这个稀疏矩阵创建一个密集矩阵，因为我必须使用余弦相似度计算文档之间的相似<e

浏览 1提问于2013-05-12得票数 49

回答已采纳

1回答

文档相似性自抄袭

r、quanteda

我有来自100个不同作者的数千个小文档。使用quanteda软件包，我计算了作者与自己之间的余弦相似度。例如，作者x有100个文本，所以我得出了一个100 x 100的相似度矩阵。作者y有50篇文章，所以我想出了一个50 x 50的相似度矩阵。现在我想比较一下这两位作者。换句话说，哪一位作者更多地抄袭自己？如果我取列或行<em

浏览 1提问于2017-01-29得票数 1

2回答

如何计算两种不同鱼群间的余弦相似度？

python、nlp、nltk、spacy、gensim

我试图估计语料库A中的每个文档A和语料库B中的所有文档之间的余弦相似性。知道我怎么能高效地做这件事吗？我正在处理相当大的数据集。本质上，我希望在语料库B中获得文档，这对于A中的每个文档来说都是非常相似的。

浏览 8提问于2020-04-09得票数 1

3回答

Jaccard相似与余弦相似的应用与区别

similarity

Jaccard相似度和余弦相似度是比较项目相似性时常用的两种度量方法。然而，在哪种情况下哪一种比另一种更可取，我并不十分清楚。有人能帮助澄清这两种测量方法的差异(概念或原理的差异，而不是定义或计算)及其更好的应用吗？

浏览 0提问于2015-02-12得票数 39

回答已采纳

1回答

生成包含R中成对余弦相似性值的列表

r、list、loops、cosine-similarity

我正在尝试编写一个循环来测量来自值矩阵的任意两行之间的成对相似性，其中每行包含来自5个人(包括他/她自己)的个人评估的4个回答： M <- matrix( nrow=5, ncol=4) 我想使用余弦相似

浏览 17提问于2021-04-22得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可以仅使用非空值在行之间使用余弦相似性吗？

数据框中行的余弦相似度

如何度量两幅图像之间的余弦相似度

用Python计算余弦相似度

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

Scipy稀疏矩阵在余弦相似性方面不能有效地存储

修正的余弦相似效率

如何在Python中对dict的值进行聚类？

如何高效地解码PyTorch中的嵌入？

将自定义函数应用于熊猫数据文件中的每个列组合

Spark ml cosine相似度:如何获得1到n的相似度分数

计算两个pandas列之间的向量的余弦相似度？

两个火花源数据帧的余弦相似度

两次辐射的余弦相似性

在numpy python中从稀疏矩阵生成密集矩阵

文档相似性自抄袭

如何计算两种不同鱼群间的余弦相似度？

Jaccard相似与余弦相似的应用与区别

生成包含R中成对余弦相似性值的列表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐