group by数据帧，以两个字符串之间的相似性度量为条件

、、

我有10000个这样的数据帧：每个数据帧对应于不同的纸牌游戏(以及表中不同的数字)，我想把这些数据帧放在一起进行比较。例如，我想比较这些数据帧的热图。在Python中有这样做的吗？因为我想在所有这10000个数据帧中看到一个趋势。

浏览 0提问于2021-03-11得票数 2

1回答

、、、、

我想按'code‘列对dataframe进行分组，但仅当'name’中的值明显不同时才进行分组。) 0 ABC abcde2 DB defs4 CDP lkj0 ABC abcde + abc de2 DB defs + wokj 但ABC不应该是分组的，并基于如下条件<

浏览 14提问于2020-03-02得票数 0

1回答

计算二进制pandas数据帧的相似性度量

、、、、

我需要在python中编码一个相似性分数，以便根据电影类型找到匹配的内容。该比较是为了让1个用户找到他们的二进制类型评分与40,000个电影标题的二进制类型评分数据帧之间的相似性。我需要遍历数据帧，并将每个项目与用户得分进行比较，以找到相似度。以用户1为例: 0,1,0,0,0,0,1,0,0,0,1,1,0,0,0,1 比较与电影数据

浏览 39提问于2020-10-23得票数 0

1回答

R中向量元素的字符串元素相似性度量

我正在为测量字符串间相似性的方法的性能而挣扎。这种做法是如何做到的：它使用sentenceMatch数据帧中的另一个字符串元素度量每个字符串元素之间的相似性。我使用levenshteinSimFunction来度量字符串之间的相似性，这是对levensht

浏览 6提问于2016-02-29得票数 0

5回答

余弦相似性与Levenshtein距离

、、、

我想知道他们之间的区别是什么，在什么情况下他们工作得最好？余弦相似是度量内积空间中两个非零向量之间相似性的度量，它度量了它们之间夹角的余弦。0°的余弦为1，对于(0，π)半径的任意角度都小于1。列文希廷距离是一个用于测量两个序列之间差异的字符串</

浏览 0提问于2019-11-18得票数 5

回答已采纳

3回答

如何测试内核是否为有效内核

、、

如果我定义自己的方法来确定我的支持向量机分类器的两个输入实体之间的相似性，并因此将其定义为我的内核，我如何验证它是否确实是我可以使用的有效内核？例如，如果我的输入是字符串，而我选择的内核是某种字符串距离度量，我如何决定是否可以将其用于我的SVM。我知道一个有效的SVM内核需要满足一些条

浏览 0提问于2012-08-03得票数 13

回答已采纳

1回答

判断两幅图像是否相似的最佳模型

我的数据集是成对的图像，评级为1或0。1表示相似，0表示不相似。模型必须以这样的方式进行训练，即它在训练中不存在的两个输入图像之间提供相似性。类的数量也是不确定的。我使用了ITML (信息理论度量学习)、LSML(最小二乘度量学习)和CSML (余弦相似度量学习)。因此，我将这个问题解释为度量

浏览 0提问于2017-05-29得票数 0

3回答

如何衡量两个数据序列之间的相似性？

我需要找到两个数据数组之间的相似性度量。你可以随心所欲地称相似性度量为差异、相关性或其他任何东西。例如： 2, 3, 4, 5, 6 < Series 2 1, 2, 3, 4, 5 < Series 1 1, 1,有没有它的源代码？

浏览 2提问于2011-12-04得票数 3

回答已采纳

2回答

零集间的Jaccard相似

、

我想根据标准代码列表的存在/不存在来计算两个数据集之间的Jaccard相似性。例如(x，y，z是数据集)：数据集x和y没有任何标准代码(Null)，因此我将列表值设置为零。sklearn.metrics import jaccard_similarity_scoreX和z之间的

浏览 4提问于2016-11-30得票数 3

回答已采纳

1回答

三维直方图的相似性度量

、、、、

我想根据颜色相似性对图像进行聚类。为此，我需要两个3D直方图之间的良好相似性度量。图像的3D直方图只是一个3维空间，其中每个轴代表一种基色。每个轴的范围是0-255，因为这是每个像素的基色的可能值。直方图表示为256X256X256矩阵，矩阵中的每个条目表示图像中具有该特定颜色的像素计数。例如:如果矩阵元素M[0][0][0] = 1150的值表

浏览 0提问于2018-10-23得票数 0

3回答

如何在一个空间(比如多个网格)中排列文档，以使它们所处的位置包含有关它们与其他文档相似程度的信息。我研究了K-means聚类，但如果数据很大，它会有一点计算密集型。我正在寻找类似于散列文档内容的东西，以便它们可以容纳在大空间中，并且相似的文档将具有类似的散列，并且它们之间的距离将会很小。在这种情况下，很容易找到与给定文档相似的文档，而不需要做太多额外的工作。在这种情况下，音乐文档接近胶片文档，但远离与计算机相关的文档。这个盒子可以被认为是文档的

浏览 1提问于2013-04-19得票数 1

回答已采纳

2回答

不同采样频率、不同幅值、不同长度的两个时间序列之间的相似性，但来自同一信源？

、、、、

我有两个文件和加速器读数，我想得到一些度量/测量，以获得这两个文件之间的相似性。我试过皮尔逊R系数，dtw距离，dtw分数。Pearson‘s r给出一个值，如果文件相同，则返回值1，如果文件相同，dtw分数和路径为0。但我需要一个解决方案，如果文件是那些在数字中，类似，有一点时间滞后。它们是两个不同的加速器的读数，它们连接在同一个源上。采样频率和幅值不一致。即使是读数的</em

浏览 0提问于2020-12-07得票数 1

2回答

Hamming距离与Levenshtein距离

、、、、

对于我正在解决的问题，找到两个序列之间的距离来确定它们的相似性，序列顺序是非常重要的。然而，我拥有的序列并不都是相同的长度，所以我用空点填充任何有缺陷的字符串，以便两个序列具有相同的长度，以满足汉明距离要求。我这样做有什么大问题吗，因为我关心的是换位的数量(而不是像Levenshtein那样的插入或删除)？我

浏览 0提问于2011-01-04得票数 53

回答已采纳

1回答

将lambda函数应用于两个Pandas数据文件中的两列

、、、

我有两个数据帧，我正在尝试合并，基于公司名称的主键&外键。一个数据集有50,000个独特的公司名称，另一个数据集大约有5,000个公司名称。在每个列表中都可以有重复的公司名称。我试图生成一些字符串编辑距离度量，比较两个数据帧之间的两列。下面是一个带有示例数据帧的MWE

浏览 5提问于2022-11-30得票数 0

2回答

如何为Damerau-Levenshtein距离选择合适的最大值？

、、、、

我在相似性度量中使用了提供的Damerau-Levenshtein代码。问题是，当我将Damerau-Levenshtein应用于两个字符串(如cat sat on a mat和dog sat mat )时，我得到的编辑距离为8。这种相似性结果可以得到关于插入、删除或替换的任何数字，如0，1，2，...。现在我想知道是否有任何方法可以假设或找到此距离(相似度)的最大值，并在0和1之间转换，或者我们如

浏览 3提问于2019-07-20得票数 0

2回答

Py_stringmatching GeneralizedJaccard的问题

、、、、

我正在使用来自GeneralizedJaccard包的Py_stringmatching来度量两个字符串之间的相似性。根据 print(sm.Levenshtein().get_sim_score('method','methods')) >> 0.857142857142

浏览 11提问于2021-12-19得票数 1

回答已采纳

2回答

Lsh算法和频带

、

我读了很多关于lsh算法的资料，但我有一个关于它的问题，完全是在频带上。S2 = {5, 4, 4, 8} //band signatures for set S2当我在一个确定的波段b中得到一个集合(例如S1)的所有minwise签名时，我必须做什么？

浏览 1提问于2015-04-02得票数 0

1回答

对于数据相关性的k表征聚类的混淆

、、、

在进行任何真正的编码之前，我正在尝试仔细考虑我的过程。然而，真的很容易被弄糊涂。 ]然后，我想应用K均值聚类算法将相关性分类为10所以在理论上，我创造了10种价格一起移动<e

浏览 0提问于2018-10-31得票数 0

4回答

向量空间模型:余弦相似度与欧氏距离

、、、

我有机密文本的语料库。通过这些，我创造了向量。每个向量对应于一个文档。向量分量是本文档中的字权值，以TFIDF值计算。接下来，我建立了一个模型，其中每个类都是由一个向量表示的。模型中的向量和语料库中的类一样多。模型向量的分量计算为该类中从向量中提取的所有分量值的平均值。对于非分类向量，我通过计算这些向量之间的余弦来确定与模型向量的相似性。问题：

浏览 0提问于2013-10-16得票数 40

回答已采纳

1回答

在多个维度(类别)上测量两个对象之间的相似性

、、、

我正在尝试构建一个粗略的度量标准，以衡量多个维度(或类别)上任何一对对象之间的相似性(例如，它们可以是经济部门GDP的百分比或学生在多个科目中的成绩)。我脑海中的一些潜在候选者是来自LDA (潜在狄利克雷分配)的潜在主题方法，该方法在K个集群的列表中为每个单元分配(非零)概率，以及word2vec，该方法基于文本的矢量化分数来衡量任意两个语料库<

浏览 30提问于2021-03-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何比较Python中的10000个数据帧？