腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何比较Python中
的
10000个
数据
帧
?
、
、
我有10000个这样
的
数据
帧
:每个
数据
帧
对应于不同
的
纸牌游戏(以及表中不同
的
数字),我想把这些
数据
帧
放在一起进行比较。例如,我想比较这些
数据
帧
的
热图。在Python中有这样做
的
吗?因为我想在所有这10000个
数据
帧
中看到一个趋势。
浏览 0
提问于2021-03-11
得票数 2
1
回答
group
by
数据
帧
,
以
两个
字符串
之间
的
相似性
度量
为
条件
、
、
、
、
我想按'code‘列对dataframe进行分组,但仅当'name’中
的
值明显不同时才进行分组。) 0 ABC abcde2 DB defs4 CDP lkj0 ABC abcde + abc de2 DB defs + wokj 但ABC不应该是分组
的
,并基于如下
条件<
浏览 14
提问于2020-03-02
得票数 0
1
回答
计算二进制pandas
数据
帧
的
相似性
度量
、
、
、
、
我需要在python中编码一个
相似性
分数,以便根据电影类型找到匹配
的
内容。 该比较是为了让1个用户找到他们
的
二进制类型评分与40,000个电影标题
的
二进制类型评分
数据
帧
之间
的
相似性
。我需要遍历
数据
帧
,并将每个项目与用户得分进行比较,
以
找到相似度。
以
用户1
为
例: 0,1,0,0,0,0,1,0,0,0,1,1,0,0,0,1 比较与电影
数据
浏览 39
提问于2020-10-23
得票数 0
1
回答
R中向量元素
的
字符串
元素
相似性
度量
我正在为测量
字符串
间
相似性
的
方法
的
性能而挣扎。这种做法是如何做到
的
: 它使用sentenceMatch
数据
帧
中
的
另一个
字符串
元素
度量
每个
字符串
元素
之间
的
相似性
。我使用levenshteinSimFunction来
度量
字符串
之间
的
相似性
,这是对levensht
浏览 6
提问于2016-02-29
得票数 0
5
回答
余弦
相似性
与Levenshtein距离
、
、
、
我想知道他们
之间
的
区别是什么,在什么情况下他们工作得最好?余弦相似是
度量
内积空间中
两个
非零向量
之间
相似性
的
度量
,它
度量
了它们
之间
夹角
的
余弦。0°
的
余弦
为
1,对于(0,π)半径
的
任意角度都小于1。 列文希廷距离是一个用于测量
两个
序列
之间
差异
的
字符串</
浏览 0
提问于2019-11-18
得票数 5
回答已采纳
3
回答
如何测试内核是否
为
有效内核
、
、
如果我定义自己
的
方法来确定我
的
支持向量机分类器
的
两个
输入实体
之间
的
相似性
,并因此将其定义
为
我
的
内核,我如何验证它是否确实是我可以使用
的
有效内核?例如,如果我
的
输入是
字符串
,而我选择
的
内核是某种
字符串
距离
度量
,我如何决定是否可以将其用于我
的
SVM。我知道一个有效
的
SVM内核需要满足一些
条
浏览 0
提问于2012-08-03
得票数 13
回答已采纳
1
回答
判断两幅图像是否相似的最佳模型
我
的
数据
集是成对
的
图像,评级
为
1或0。1表示相似,0表示不相似。模型必须
以
这样
的
方式进行训练,即它在训练中不存在
的
两个
输入图像
之间
提供
相似性
。类
的
数量也是不确定
的
。我使用了ITML (信息理论
度量
学习)、LSML(最小二乘
度量
学习)和CSML (余弦相似
度量
学习)。因此,我将这个问题解释
为
度量
浏览 0
提问于2017-05-29
得票数 0
3
回答
如何衡量
两个
数据
序列
之间
的
相似性
?
我需要找到
两个
数据
数组
之间
的
相似性
度量
。你可以随心所欲地称
相似性
度量
为
差异、相关性或其他任何东西。例如: 2, 3, 4, 5, 6 < Series 2 1, 2, 3, 4, 5 < Series 1 1, 1,有没有它
的
源代码?
浏览 2
提问于2011-12-04
得票数 3
回答已采纳
2
回答
零集间
的
Jaccard相似
、
我想根据标准代码列表
的
存在/不存在来计算
两个
数据
集
之间
的
Jaccard
相似性
。例如(x,y,z是
数据
集):
数据
集x和y没有任何标准代码(Null),因此我将列表值设置
为
零。sklearn.metrics import jaccard_similarity_scoreX和z
之间
的
浏览 4
提问于2016-11-30
得票数 3
回答已采纳
1
回答
三维直方图
的
相似性
度量
、
、
、
、
我想根据颜色
相似性
对图像进行聚类。为此,我需要
两个
3D直方图
之间
的
良好
相似性
度量
。图像
的
3D直方图只是一个3维空间,其中每个轴代表一种基色。每个轴
的
范围是0-255,因为这是每个像素
的
基色
的
可能值。直方图表示
为
256X256X256矩阵,矩阵中
的
每个条目表示图像中具有该特定颜色
的
像素计数。例如:如果矩阵元素M[0][0][0] = 1150
的
值表
浏览 0
提问于2018-10-23
得票数 0
3
回答
根据内容相似度在网格中排列文档
、
、
、
、
如何在一个空间(比如多个网格)中排列文档,以使它们所处
的
位置包含有关它们与其他文档相似程度
的
信息。我研究了K-means聚类,但如果
数据
很大,它会有一点计算密集型。我正在寻找类似于散列文档内容
的
东西,以便它们可以容纳在大空间中,并且相似的文档将具有类似的散列,并且它们
之间
的
距离将会很小。在这种情况下,很容易找到与给定文档相似的文档,而不需要做太多额外
的
工作。在这种情况下,音乐文档接近胶片文档,但远离与计算机相关
的
文档。这个盒子可以被认为是文档
的
浏览 1
提问于2013-04-19
得票数 1
回答已采纳
2
回答
不同采样频率、不同幅值、不同长度
的
两个
时间序列
之间
的
相似性
,但来自同一信源?
、
、
、
、
我有
两个
文件和加速器读数,我想得到一些
度量
/测量,
以
获得这
两个
文件
之间
的
相似性
。我试过皮尔逊R系数,dtw距离,dtw分数。Pearson‘s r给出一个值,如果文件相同,则返回值1,如果文件相同,dtw分数和路径
为
0。 但我需要一个解决方案,如果文件是那些在数字中,类似,有一点时间滞后。它们是
两个
不同
的
加速器
的
读数,它们连接在同一个源上。采样频率和幅值不一致。即使是读数
的</em
浏览 0
提问于2020-12-07
得票数 1
2
回答
Hamming距离与Levenshtein距离
、
、
、
、
对于我正在解决
的
问题,找到
两个
序列
之间
的
距离来确定它们
的
相似性
,序列顺序是非常重要
的
。然而,我拥有的序列并不都是相同
的
长度,所以我用空点填充任何有缺陷
的
字符串
,以便
两个
序列具有相同
的
长度,
以
满足汉明距离要求。我这样做有什么大问题吗,因为我关心
的
是换位
的
数量(而不是像Levenshtein那样
的
插入或删除)? 我
浏览 0
提问于2011-01-04
得票数 53
回答已采纳
1
回答
将lambda函数应用于
两个
Pandas
数据
文件中
的
两列
、
、
、
我有
两个
数据
帧
,我正在尝试合并,基于公司名称
的
主键&外键。一个
数据
集有50,000个独特
的
公司名称,另一个
数据
集大约有5,000个公司名称。在每个列表中都可以有重复
的
公司名称。我试图生成一些
字符串
编辑距离
度量
,比较
两个
数据
帧
之间
的
两列。下面是一个带有示例
数据
帧
的
MWE
浏览 5
提问于2022-11-30
得票数 0
2
回答
如何为Damerau-Levenshtein距离选择合适
的
最大值?
、
、
、
、
我在
相似性
度量
中使用了提供
的
Damerau-Levenshtein代码。问题是,当我将Damerau-Levenshtein应用于
两个
字符串
(如cat sat on a mat和dog sat mat )时,我得到
的
编辑距离
为
8。这种
相似性
结果可以得到关于插入、删除或替换
的
任何数字,如0,1,2,...。现在我想知道是否有任何方法可以假设或找到此距离(相似度)
的
最大值,并在0和1
之间
转换,或者我们如
浏览 3
提问于2019-07-20
得票数 0
2
回答
Py_stringmatching GeneralizedJaccard
的
问题
、
、
、
、
我正在使用来自GeneralizedJaccard包
的
Py_stringmatching来
度量
两个
字符串
之间
的
相似性
。根据 print(sm.Levenshtein().get_sim_score('method','methods')) >> 0.857142857142
浏览 11
提问于2021-12-19
得票数 1
回答已采纳
2
回答
Lsh算法和频带
、
我读了很多关于lsh算法
的
资料,但我有一个关于它
的
问题,完全是在频带上。S2 = {5, 4, 4, 8} //band signatures for set S2当我在一个确定
的
波段b中得到一个集合(例如S1)
的
所有minwise签名时,我必须做什么?
浏览 1
提问于2015-04-02
得票数 0
1
回答
对于
数据
相关性
的
k表征聚类
的
混淆
、
、
、
在进行任何真正
的
编码之前,我正在尝试仔细考虑我
的
过程。然而,真的很容易被弄糊涂。 ]然后,我想应用K均值聚类算法将相关性分类
为
10所以在理论上,我创造了10种价格一起移动<e
浏览 0
提问于2018-10-31
得票数 0
4
回答
向量空间模型:余弦相似度与欧氏距离
、
、
、
我有机密文本
的
语料库。通过这些,我创造了向量。每个向量对应于一个文档。向量分量是本文档中
的
字权值,
以
TFIDF值计算。接下来,我建立了一个模型,其中每个类都是由一个向量表示
的
。模型中
的
向量和语料库中
的
类一样多。模型向量
的
分量计算
为
该类中从向量中提取
的
所有分量值
的
平均值。对于非分类向量,我通过计算这些向量
之间
的
余弦来确定与模型向量
的
相似性
。问题:
浏览 0
提问于2013-10-16
得票数 40
回答已采纳
1
回答
在多个维度(类别)上测量
两个
对象
之间
的
相似性
、
、
、
我正在尝试构建一个粗略
的
度量
标准,
以
衡量多个维度(或类别)上任何一对对象
之间
的
相似性
(例如,它们可以是经济部门GDP
的
百分比或学生在多个科目中
的
成绩)。我脑海中
的
一些潜在候选者是来自LDA (潜在狄利克雷分配)
的
潜在主题方法,该方法在K个集群
的
列表中
为
每个单元分配(非零)概率,以及word2vec,该方法基于文本
的
矢量化分数来衡量任意
两个
语料库<
浏览 30
提问于2021-03-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
辅助决策系统中的态相似、势相似、感相似、知相似
Python 字符串相似性的几种度量方法
AI系统如何识别重复数据?
自然语言处理中的本体/分类/同义相似
机器学习数学补脑汁(二)-距离
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券