如何根据条件迭代某些行以计算余弦距离

文章/答案/技术大牛

发布

1回答

、

我想计算每一行与manager中有1的行之间的余弦距离(不包括它本身)，然后取平均值并将其附加到新的列cos_distance。例如，对于row0，我将获得第3行和第4行的余弦距离，然后取平均值。如何添加条件，使其仅限于manager列中有1的那些条件？我试着运行下面的代码，但可能是因为我们没有顺序索引，它返回了一个空列表。

浏览 17提问于2021-06-25得票数 1

回答已采纳

2回答

如何在映射中嵌入if语句

、、

我有一个定义，计算来自一个矩阵的每个组合的余弦相似度。但是，我希望这个定义在某些特定的条件下运行。filter(_.value >= minCosineSimilarity)它计算来自“组合(2)”线的给定对的余弦相似性。我增加了一个包含if语句的行。如果条件在这里有效，我如何使它有效？

浏览 0提问于2016-02-03得票数 0

回答已采纳

1回答

将熊猫数据栏转换为浮点数的问题

、、、

我试图建立一个名人相貌相似的程序，使用VggFace和IMDb名人脸数据库，我计算每个脸嵌入到数据库中，并将其存储在一个熊猫数据框架中。然而，当我试图加载嵌入的后置词来计算余弦距离时，我无法使它工作，显然它是作为一个字符串中的列表(即“1.3-1.)等等”存储的。所以我不得不问：我的代码太长了，所以我不知道我是否应该把数据上传到网上，这样你们才能看到它。下面是使用df.to_di

浏览 4提问于2021-01-21得票数 0

2回答

计算巨蟒两种词频词典余弦相似度的正确方法？

、、、、

我试图迭代一个包含文本的文件，并计算当前行与用户提出的查询之间的余弦相似度。我已经标记了查询和行，并将他们的单词合并保存到一个集合中。'] 现在我必须为行和查询分别创建一个字典Ifwerson&#x

浏览 15提问于2017-01-24得票数 2

回答已采纳

1回答

将目录中的图像转换为向量来计算余弦距离？

、、、

我目前正在处理的问题是一次获取多幅图像，将它们转换成一个向量，用于计算余弦距离，以得到目录中的图像与另一个目录中的图像之间的相似性。从四周看，我不能使用张量/数组来计算这些距离，但是如果我错了，请纠正我。the images 然后尝试使用特定的余弦函数来工作但我知道，主要的问题是根据</em

浏览 0提问于2022-08-10得票数 0

4回答

为什么KNN在余弦距离上比欧几里德距离快得多？

、、、、

我正在使用scikit learn拟合k近邻分类器，并注意到当使用两个向量之间的余弦相似度时，与使用欧几里得相似度时相比，拟合速度更快，通常是一个数量级或更多。我知道scikit learn使用球树或KD树来计算邻居图，但我不确定为什么度量的形式会影响算法的运行时间。为了量化影响，我执行了一个模拟实验，其中我使用欧几里得或余弦度量将KNN拟合到随机数据，并记录了每种情况下的运行时间。

浏览 6提问于2021-05-23得票数 6

1回答

HBase读取十亿行

、、

HBase表中有十亿行可用。我不使用Hadoop，我有3-4台主机安装了Tomcat。如何在多个主机之间拆分行以进行并行读取？

浏览 0提问于2014-07-11得票数 0

1回答

GroupBy和where条件不能同时工作

、、、

你好，我正在尝试根据距离从数据库中获取结果，也不想在我的返回数据中包含那些存在某些in的行。但问题是，如果我按group by分组，那么它会忽略WHERE条件。但是如果我删除了GROUP BY条件，那么条件就能成功工作。因此，请帮助我如何不包括某些行，并根据距离对结果进行排序。

浏览 0提问于2019-06-19得票数 0

1回答

Python中的调整余弦相似度

、、

提到这个M_u = M.mean(axis=1) similarity_matrix = 1 - squareform(pdist(item_mean_subtracted.T, 'cosine')) 我看不出‘都评级’的条件是如何按照这个来满足的我手动计算了调整后的余弦相似点，它们似乎与我从上

浏览 0提问于2018-02-23得票数 1

1回答

迭代地从两个矩阵中选择行，并在R中执行函数

、、、

我想计算两对分布之间的距离，对于近10k对分布。我有一个来自philentropy包的distance函数，它接受两个向量x y并计算它们之间的距离，如下所示： d <- distance(x, y, method="desired_method")两个矩阵的行数相同，我的目标是迭代地比较矩阵a的第一行与矩阵b的第一行，第二个a行与第二个b行，依此类推。问题是，对于第一种方法，我不知道如何生

浏览 9提问于2019-08-01得票数 0

1回答

查询与文档的余弦相似性

、、、、

它涉及到给定查询的文档的余弦相似性。我已经生成了这个矩阵，但是我很难理解如何处理这个查询，并从中生成余弦相似性。所以我应该用余弦相似度来计算所有这些行向量？查询是在词频矩阵中包含列位置和项的列表。 51

浏览 0提问于2018-11-09得票数 0

回答已采纳

1回答

他们的总人口是根据加州真正的白人与少数族裔的比例计算的。例如，如果加州有70%的白人和30%的少数族裔，那么代理人(比如100名)将是70名白人和30名少数。首先，使用两个代理随机填充映射，然后执行模拟的大约100次迭代。在每一次迭代中，代理都是基于一定的条件移动的。数据是在第100次迭代后获得的，它包括在加利福尼亚某一县的白人和少数族裔中所占的百分比。我发现这三个选项可以用来查找相似性，而且它们都有Python中的一个方法： 1)地球推土机距离2) Kullback-

浏览 0提问于2019-10-24得票数 3

1回答

Django:筛选与给定项相似的项

、、

相似度将基于某些算法。我想根据项目-项目的相似性找到项目。如何在生产环境中实现上述目标？正如数据结构应该用来优化请

浏览 0提问于2016-04-03得票数 0

回答已采纳

2回答

多维聚类数据集

、、、

我希望能够根据成分组成的相似性将这些食谱聚在一起。我怎样才能做到这一点？可以使用哪种聚类方法，以及如何使用？

浏览 0提问于2020-02-04得票数 -2

回答已采纳

1回答

数值和文本值的组合之间的余弦相似度

、、

，以获得电影之间的相似度。他们后来说引入受欢迎程度过滤器:该推荐器将选取30部最相似的电影，计算加权评分(使用上面的IMDB公式)，根据该评分对电影进行排序，并返回前10部电影。我正在尝试使用类别、属性、纬度和对数(对于距离)、明星和评论计数(基于评论计数对明星进行加权-评论数量越多，对明星的权重越大)来构建类似的模型。但我不知道如何将数字列合并到这里的模型中。我是否可以构建两个模型--一个包含文本字段，另一个通过简单地计算数值列之间的余弦相似度(或皮尔逊相关性)

浏览 27提问于2021-02-27得票数 0

回答已采纳

2回答

R中的聚类时间序列-K均值是否准确？

、、、、

我的数据集是由105个国家(行)的14年(列)相同指数的测量结果组成的。我想根据这些国家随时间变化的指数趋势对其进行聚类。我正在尝试使用DTW距离矩阵(dtw包)的层次聚类(hclust)和K Medoids (pam)。我还尝试了K均值，使用DTW距离矩阵作为函数kmeans的第一个参数。该算法有效，但我不确定其准确性，因为K均值利用Eucledian距离并计算质心作为均值。我也在考虑直接使用数据，但我不能理解结果如何准确，因为算法会将同一变量随时间的不同测量视为不

浏览 7提问于2020-03-03得票数 0

1回答

如何按距经度/纬度距离对大的(可能是部分)地址列表进行排序

、、、、

我有一个包含10,000+地址的数据库，我希望从一个经度/纬度按距离排序。地址有时是完整的街道地址，有时只是邮政编码，有时是城市/州地址。这将允许按距离排序(我认为)。是否有免费的服务，允许稍后/稍后获取地址，并允许将信息存储在数据库中？我知道谷歌的服务条款不允许这种使用(存储从其服务中检索到的信息)。

浏览 0提问于2013-05-07得票数 1

回答已采纳

1回答

Tensorflow中两组向量余弦相似度的计算

、、

shape=[600,52]) # 600 vectors of length 52我试图计算所有向量组合的余弦相似性similarity = Tensor(shape=[600, 16000])( a)我不太确定如何以一种非迭代的方式实现这一点，我考虑将广播语义与tf.losses.cosine_distance( b)根据实现(如果使用tf.losses.cosine

浏览 1提问于2018-10-23得票数 1

回答已采纳

1回答

用“区分性”得分向量

、

我想这是一个众所周知的问题，但我不知道如何称呼它，也不知道如何搜索它。为了解释我的意思，假设点是向量空间中的一些向量(不一定是二维的)。我希望给每个向量分配一个分数，这样向量是最“不同的”(从某种意义上说，距离其他向量最远)有最高的分数。在本例中，黄色向量的得分可能最高，红色和蓝色的得分最低。

浏览 0提问于2023-02-27得票数 0

1回答

运行成对距离函数后如何维护或恢复数据索引？

、、、、

我正在使用sklearn的成对距离函数，它在计算一个巨大的矩阵时拯救了我的生命，但是我遇到的问题是我失去了我的指数。具体来说，我最初有一个17000 x 300的巨大数据，我根据某些类条件将其分解为4种不同的数据格式。四个单独的数据数组保留原始索引，但在对其中一个数据执行成对的距离函数后，它给我返回一个具有正确值的2d数组，但索引已从0向上重置。如何保存或恢复原始索引 distance1 = pair.pairwise_distances(df1, metric=&#x

浏览 3提问于2016-10-04得票数 1

回答已采纳

点击加载更多