腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
名称的近似字符串
匹配
算法
string
、
algorithm
、
string-matching
、
fuzzy-comparison
、
approximate
我正在为下面的示例寻找模糊字符串
算法
:给定一个现有名称的数据库,如果
匹配
精度高于输入阈值(例如90%),则将输入
匹配
到最佳
匹配
名称,或者NA其他输入。JBondL->James BondBandJamesk->James Bond目前,像Levenstein这样的大多数
算法
和Soundex这样的基于语音的
算法
都无法
匹配
像BondJames这样的倒名
浏览 6
提问于2017-07-18
得票数 2
2
回答
在K-Means聚类中使用词干提取
algorithm
、
k-means
、
stemming
然后利用
余弦
相似度进行
算法
与实际单词的
匹配
。我是不是应该先计算词干,然后计算词干的tf-idf?使用词干提取不会降低结果吗?
浏览 2
提问于2013-07-18
得票数 1
1
回答
Kmean
算法
与
余弦
距离
cluster-analysis
、
cosine-similarity
我已经使用了带有欧几里德距离的K-mean
算法
来聚类我的数据集,然后我尝试了
余弦
距离,但是
算法
不收敛于
余弦
度量(它不是停止-迭代达到1000 ) 有什么建议请提
浏览 1
提问于2016-12-06
得票数 0
3
回答
一种计算两个字间编辑距离的
算法
python-3.x
、
nlp
、
text-classification
、
fasttext
、
edit-distance
我尝试过不同的现成编辑距离
算法
,如
余弦
算法
、Levenshtein
算法
和其他
算法
,但这些
算法
无法区分差异的程度。例如,(book,bouk)和(book,bo0k)。我正在寻找一个
算法
,可以给这两个例子不同的分数。我正在考虑使用fastText或BPE,但是他们使用
余弦
距离。 有什么
算法
可以解决这个问题吗?
浏览 3
提问于2020-04-22
得票数 1
回答已采纳
2
回答
当一个单词出现的顺序或次数不重要时,两个字符串之间的最佳
匹配
?
c#
、
algorithm
、
string
、
word
、
pattern-matching
当一个单词出现的顺序或次数不重要时,在C#中
匹配
或计算两个字符串之间的距离的最佳
算法
是什么?最佳手段: matchElegantEfficientScalable,主要同意人工字符串,这样输入字符串就可以与其他字符串的潜在大集合相
匹配
。
浏览 2
提问于2009-05-12
得票数 2
1
回答
聚类
算法
machine-learning
、
data-mining
、
clustering
我有稀疏向量,并且发现
余弦
相似度是度量相似度的有效方法。现在我想根据相似性对这些向量进行聚类。因此,有人能建议/推荐使用
余弦
相似性的聚类
算法
吗? P.S.:我没有预先定义好的簇数,而是希望聚类
算法
自己来决定它。
浏览 0
提问于2017-07-03
得票数 0
回答已采纳
1
回答
产品价格比较工具:
匹配
相同项目的困难
python
、
machine-learning
、
nlp
、
information-retrieval
、
cosine-similarity
我面临的困难,当我想
匹配
相同的项目,从清单上,我收集了从不同的网站使用一个搜索词。我使用
余弦
相似性,并考虑使用Levenshtein的
算法
进行产品
匹配
,以
匹配
不同项目的标题,以找到相同的项目。product_99: { } 当我在上面的项目列表(数据)上使用
余弦
相似性时,值如下cosine(product_0 * pro
浏览 2
提问于2016-11-07
得票数 0
回答已采纳
1
回答
为什么
余弦
距离比在科学学习中使用欧氏距离和DBSCAN algo慢得多?
python
、
scikit-learn
对于包scikit-learn中的DBSCAN
算法
,我将使用两个度量(欧氏距离和
余弦
相似度)。DBSCAN(eps=0.02, min_samples=5, metric=cosine_distance).fit(data) 有谁知道
余弦
相似速度差异的原因吗
浏览 5
提问于2015-03-07
得票数 0
回答已采纳
1
回答
给定两个文本的
匹配
词的索引
python
、
nlp
、
cosine-similarity
我对给定的文本和我必须
匹配
的每个术语使用了
余弦
相似度
匹配
,并且我确实得到了它与给定文本
匹配
的程度的值,最高cos值给出了确切的值。输出:[['Arenaviral haemorrhagic fever'], ['Abnormal labor'], ['Abdomen crushing']] 但我还需要获得文本中
匹配
的单词的索引,任何
算法
都可以获得给定文本中
匹配
的单词的索引
浏览 0
提问于2018-06-29
得票数 1
2
回答
什么时候使用CORDIC或多项式近似更有效?
c
、
algorithm
、
math
、
assembly
、
floating-point
我已经在这个架构上用软件实现了32位单精度浮点加/减、乘法、
余弦
、正弦、除法、平方根和范围缩减。为了实现
余弦
和正弦,我首先使用了使用论文中描述的方法的范围缩减,然后实现了
余弦
和正弦函数,它们是范围-pi/4到+pi/4上的
余弦
和正弦函数的多项式逼近。我参考了Hart等人的“计算机近似”一书。我还听说我应该考虑CORDIC
算法
。然而,我想知道是否有人知道它的效率(在吞吐量、内存开销和所需指令数量方面)会比我已经使用的方法更高还是更低?此外,我还尝试搜索如何实现
余弦</e
浏览 0
提问于2013-03-15
得票数 7
回答已采纳
2
回答
python中
余弦
度量的DBSCAN误差
scikit-learn
、
cluster-analysis
、
data-mining
、
cosine-similarity
、
dbscan
我试图使用带有
余弦
度量的scikit-learn库中的DBSCAN
算法
,但是被错误所困扰。错误如下: 尽管文档中说可以使用这个度量。我尝试使用选项algorithm='kd_tree'和'ball_tree',但得到了相同的结果。我的数据集没有完整的零行,因此
余弦
度量是很好的定义。
浏览 4
提问于2015-09-23
得票数 6
回答已采纳
1
回答
生成两个具有给定角度的向量
math
、
vector
、
linear-algebra
、
cosine-similarity
我试图用给定的
余弦
相似度生成两个向量。输入将是
余弦
相似度的程度(或者说它取决于它)和向量中的维数(D),输出将是D维的两个向量,与它们之间给定的相似度,现在我知道如何使用
余弦
相似函数来计算相似度,但当我尝试相反的方法时,我迷失了方向。是否有这样的过程或
算法
,它是如何命名的?
浏览 6
提问于2022-05-25
得票数 1
回答已采纳
1
回答
余弦
距离Weka
weka
我正在尝试在Weka中实现
余弦
距离,但进展不是很顺利。看起来我必须实现很多东西才能获得一点收获。我尝试遵循欧几里得距离实现,但它没有直接实现接口,而是扩展了NormalizableDistance。我如何实现
余弦
距离,以便仅从代码中使用它,我不需要所有与GUI相关的函数?
浏览 3
提问于2015-06-16
得票数 2
2
回答
将相似文档映射到相同值的文本文档的散列函数。
similar-documents
我有一个网站,可以处理用户提交的文本文档(通常为10-100页)。每次用户提交文档时,我都想存储文档的散列,但我希望类似的文档映射到相同的哈希值。实际上,我想知道用户是重新提交略有更改的文档还是重新提交新文档。我读过很多关于MinHash和LSH的文章,但这些都是基于拥有大量文档的语料库,然后在语料库中找到类似的文档。我认为这些不适用于我,因为我需要一次计算单个文档上的散列向量,而不知道其他文档。我的比较是基于文本而不是意
浏览 0
提问于2019-09-29
得票数 2
2
回答
记录链接问题
machine-learning
、
apache-spark
、
pyspark
、
clustering
我正在构建
匹配
的ML.Project是为了
匹配
内部客户数据与外部客户data.Features名称,地址,城市,州和邮编。我们在数据集之间创建对,计算
余弦
相似度,然后将所有特征对的
余弦
值传递给高斯混合model.We,从2个聚类开始,期望一个
匹配
簇和一个不
匹配
cluster.But ML不构建一个
匹配
簇,并且
匹配
在两个簇中在传递到ML之前,我使用了标准标量器和最小最大标量器,但是仍然没有得到一个清晰的标号和
匹配
的cluster.If。
浏览 0
提问于2019-05-24
得票数 1
3
回答
如何计算模糊字符串
匹配
中的分数?
python
、
fuzzy
我想知道计算两个字符串之间模糊
匹配
分数的数学逻辑和公式。 假设我有两个字符串s1和s2,我想在python中使用模糊
匹配
。我知道像fuzzywuzzy这样的python库可以做到这一点。但我想知道模糊
匹配
方法和比率计算背后的精确数学和逻辑。
浏览 2
提问于2020-10-17
得票数 0
回答已采纳
2
回答
如何有效计算数以百万计的字符串间的
余弦
相似度
java
、
python
、
algorithm
、
divide-and-conquer
、
cosine-similarity
我需要计算列表中字符串之间的
余弦
相似性。例如,我有一个包含超过1000万个字符串的列表,每个字符串必须确定其自身与列表中的每个其他字符串之间的相似性。我能有效和快速地完成这样的任务的最佳
算法
是什么?分而治之
算法
适用吗?我希望确定哪些字符串与给定字符串最相似,并且能够有一个与相似度相关联的度量/得分。我认为我想要做的事情与集群是一致的,在集群中,最初不知道集群的数量。
浏览 3
提问于2013-02-23
得票数 8
1
回答
基于内容的推荐可能吗?
algorithm
、
mahout
、
recommendation-engine
、
cosine-similarity
我在探索基于内容的
算法
,所以我了解到基于内容的
算法
是用来计算项目和用户之间的相似度的,就像"pandora“一样。是否可以计算用户偏好比例和项目的相似度,或者是否有符合我需求的
算法
或帮助我的文档? 提前感谢
浏览 2
提问于2015-07-23
得票数 0
3
回答
浮点数中的
余弦
binary
、
floating-point
、
trigonometry
我正在尝试用浮点实现
余弦
和正弦函数(但我没有浮点硬件)。 因为我的处理器没有浮点硬件,也没有指令,所以我已经实现了浮点乘法、除法、加法、减法和平方根的
算法
。这些是我可以用来实现
余弦
和正弦的工具。我正在寻找众所周知的快速和有效的
算法
的名称。
浏览 1
提问于2012-02-14
得票数 6
回答已采纳
4
回答
为什么KNN在
余弦
距离上比欧几里德距离快得多?
algorithm
、
performance
、
machine-learning
、
scikit-learn
、
knn
我正在使用scikit learn拟合k近邻分类器,并注意到当使用两个向量之间的
余弦
相似度时,与使用欧几里得相似度时相比,拟合速度更快,通常是一个数量级或更多。我知道scikit learn使用球树或KD树来计算邻居图,但我不确定为什么度量的形式会影响
算法
的运行时间。为了量化影响,我执行了一个模拟实验,其中我使用欧几里得或
余弦
度量将KNN拟合到随机数据,并记录了每种情况下的运行时间。
浏览 6
提问于2021-05-23
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
余弦相似度算法进行客户流失分类预测
算法字符串匹配-BF算法
算法 KMP字符串匹配
字符串匹配算法基础版
漫画:什么是字符串匹配算法?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券