余弦匹配算法_余弦匹配_模糊匹配算法 - 腾讯云开发者社区

string、algorithm、string-matching、fuzzy-comparison、approximate

我正在为下面的示例寻找模糊字符串算法:给定一个现有名称的数据库，如果匹配精度高于输入阈值(例如90%)，则将输入匹配到最佳匹配名称，或者NA其他输入。JBondL->James BondBandJamesk->James Bond目前，像Levenstein这样的大多数算法和Soundex这样的基于语音的算法都无法匹配像BondJames这样的倒名

浏览 6提问于2017-07-18得票数 2

2回答

在K-Means聚类中使用词干提取

algorithm、k-means、stemming

然后利用余弦相似度进行算法与实际单词的匹配。我是不是应该先计算词干，然后计算词干的tf-idf？使用词干提取不会降低结果吗？

浏览 2提问于2013-07-18得票数 1

1回答

Kmean算法与余弦距离

cluster-analysis、cosine-similarity

我已经使用了带有欧几里德距离的K-mean算法来聚类我的数据集，然后我尝试了余弦距离，但是算法不收敛于余弦度量(它不是停止-迭代达到1000 ) 有什么建议请提

浏览 1提问于2016-12-06得票数 0

3回答

一种计算两个字间编辑距离的算法

python-3.x、nlp、text-classification、fasttext、edit-distance

我尝试过不同的现成编辑距离算法，如余弦算法、Levenshtein算法和其他算法，但这些算法无法区分差异的程度。例如，(book，bouk)和(book，bo0k)。我正在寻找一个算法，可以给这两个例子不同的分数。我正在考虑使用fastText或BPE，但是他们使用余弦距离。有什么算法可以解决这个问题吗？

浏览 3提问于2020-04-22得票数 1

回答已采纳

2回答

当一个单词出现的顺序或次数不重要时，两个字符串之间的最佳匹配？

c#、algorithm、string、word、pattern-matching

当一个单词出现的顺序或次数不重要时，在C#中匹配或计算两个字符串之间的距离的最佳算法是什么？最佳手段： matchElegantEfficientScalable，主要同意人工字符串，这样输入字符串就可以与其他字符串的潜在大集合相匹配。

浏览 2提问于2009-05-12得票数 2

1回答

聚类算法

machine-learning、data-mining、clustering

我有稀疏向量，并且发现余弦相似度是度量相似度的有效方法。现在我想根据相似性对这些向量进行聚类。因此，有人能建议/推荐使用余弦相似性的聚类算法吗？ P.S.：我没有预先定义好的簇数，而是希望聚类算法自己来决定它。

浏览 0提问于2017-07-03得票数 0

回答已采纳

1回答

产品价格比较工具:匹配相同项目的困难

python、machine-learning、nlp、information-retrieval、cosine-similarity

我面临的困难，当我想匹配相同的项目，从清单上，我收集了从不同的网站使用一个搜索词。我使用余弦相似性，并考虑使用Levenshtein的算法进行产品匹配，以匹配不同项目的标题，以找到相同的项目。product_99: { } 当我在上面的项目列表(数据)上使用余弦相似性时，值如下cosine(product_0 * pro

浏览 2提问于2016-11-07得票数 0

回答已采纳

1回答

为什么余弦距离比在科学学习中使用欧氏距离和DBSCAN algo慢得多？

python、scikit-learn

对于包scikit-learn中的DBSCAN算法，我将使用两个度量(欧氏距离和余弦相似度)。DBSCAN(eps=0.02, min_samples=5, metric=cosine_distance).fit(data) 有谁知道余弦相似速度差异的原因吗

浏览 5提问于2015-03-07得票数 0

回答已采纳

1回答

给定两个文本的匹配词的索引

python、nlp、cosine-similarity

我对给定的文本和我必须匹配的每个术语使用了余弦相似度匹配，并且我确实得到了它与给定文本匹配的程度的值，最高cos值给出了确切的值。输出：[['Arenaviral haemorrhagic fever'], ['Abnormal labor'], ['Abdomen crushing']] 但我还需要获得文本中匹配的单词的索引，任何算法都可以获得给定文本中匹配的单词的索引

浏览 0提问于2018-06-29得票数 1

2回答

什么时候使用CORDIC或多项式近似更有效？

c、algorithm、math、assembly、floating-point

我已经在这个架构上用软件实现了32位单精度浮点加/减、乘法、余弦、正弦、除法、平方根和范围缩减。为了实现余弦和正弦，我首先使用了使用论文中描述的方法的范围缩减，然后实现了余弦和正弦函数，它们是范围-pi/4到+pi/4上的余弦和正弦函数的多项式逼近。我参考了Hart等人的“计算机近似”一书。我还听说我应该考虑CORDIC算法。然而，我想知道是否有人知道它的效率(在吞吐量、内存开销和所需指令数量方面)会比我已经使用的方法更高还是更低？此外，我还尝试搜索如何实现余弦</e

浏览 0提问于2013-03-15得票数 7

回答已采纳

2回答

python中余弦度量的DBSCAN误差

scikit-learn、cluster-analysis、data-mining、cosine-similarity、dbscan

我试图使用带有余弦度量的scikit-learn库中的DBSCAN算法，但是被错误所困扰。错误如下：尽管文档中说可以使用这个度量。我尝试使用选项algorithm='kd_tree'和'ball_tree'，但得到了相同的结果。我的数据集没有完整的零行，因此余弦度量是很好的定义。

浏览 4提问于2015-09-23得票数 6

回答已采纳

1回答

生成两个具有给定角度的向量

math、vector、linear-algebra、cosine-similarity

我试图用给定的余弦相似度生成两个向量。输入将是余弦相似度的程度(或者说它取决于它)和向量中的维数(D)，输出将是D维的两个向量，与它们之间给定的相似度，现在我知道如何使用余弦相似函数来计算相似度，但当我尝试相反的方法时，我迷失了方向。是否有这样的过程或算法，它是如何命名的？

浏览 6提问于2022-05-25得票数 1

回答已采纳

1回答

余弦距离Weka

weka

我正在尝试在Weka中实现余弦距离，但进展不是很顺利。看起来我必须实现很多东西才能获得一点收获。我尝试遵循欧几里得距离实现，但它没有直接实现接口，而是扩展了NormalizableDistance。我如何实现余弦距离，以便仅从代码中使用它，我不需要所有与GUI相关的函数？

浏览 3提问于2015-06-16得票数 2

2回答

将相似文档映射到相同值的文本文档的散列函数。

similar-documents

我有一个网站，可以处理用户提交的文本文档(通常为10-100页)。每次用户提交文档时，我都想存储文档的散列，但我希望类似的文档映射到相同的哈希值。实际上，我想知道用户是重新提交略有更改的文档还是重新提交新文档。我读过很多关于MinHash和LSH的文章，但这些都是基于拥有大量文档的语料库，然后在语料库中找到类似的文档。我认为这些不适用于我，因为我需要一次计算单个文档上的散列向量，而不知道其他文档。我的比较是基于文本而不是意

浏览 0提问于2019-09-29得票数 2

2回答

记录链接问题

machine-learning、apache-spark、pyspark、clustering

我正在构建匹配的ML.Project是为了匹配内部客户数据与外部客户data.Features名称，地址，城市，州和邮编。我们在数据集之间创建对，计算余弦相似度，然后将所有特征对的余弦值传递给高斯混合model.We，从2个聚类开始，期望一个匹配簇和一个不匹配cluster.But ML不构建一个匹配簇，并且匹配在两个簇中在传递到ML之前，我使用了标准标量器和最小最大标量器，但是仍然没有得到一个清晰的标号和匹配的cluster.If。

浏览 0提问于2019-05-24得票数 1

3回答

如何计算模糊字符串匹配中的分数？

python、fuzzy

我想知道计算两个字符串之间模糊匹配分数的数学逻辑和公式。假设我有两个字符串s1和s2，我想在python中使用模糊匹配。我知道像fuzzywuzzy这样的python库可以做到这一点。但我想知道模糊匹配方法和比率计算背后的精确数学和逻辑。

浏览 2提问于2020-10-17得票数 0

回答已采纳

2回答

如何有效计算数以百万计的字符串间的余弦相似度

java、python、algorithm、divide-and-conquer、cosine-similarity

我需要计算列表中字符串之间的余弦相似性。例如，我有一个包含超过1000万个字符串的列表，每个字符串必须确定其自身与列表中的每个其他字符串之间的相似性。我能有效和快速地完成这样的任务的最佳算法是什么？分而治之算法适用吗？我希望确定哪些字符串与给定字符串最相似，并且能够有一个与相似度相关联的度量/得分。我认为我想要做的事情与集群是一致的，在集群中，最初不知道集群的数量。

浏览 3提问于2013-02-23得票数 8

1回答

基于内容的推荐可能吗？

algorithm、mahout、recommendation-engine、cosine-similarity

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

3回答

浮点数中的余弦

binary、floating-point、trigonometry

我正在尝试用浮点实现余弦和正弦函数(但我没有浮点硬件)。因为我的处理器没有浮点硬件，也没有指令，所以我已经实现了浮点乘法、除法、加法、减法和平方根的算法。这些是我可以用来实现余弦和正弦的工具。我正在寻找众所周知的快速和有效的算法的名称。

浏览 1提问于2012-02-14得票数 6

回答已采纳

4回答

为什么KNN在余弦距离上比欧几里德距离快得多？

algorithm、performance、machine-learning、scikit-learn、knn

我正在使用scikit learn拟合k近邻分类器，并注意到当使用两个向量之间的余弦相似度时，与使用欧几里得相似度时相比，拟合速度更快，通常是一个数量级或更多。我知道scikit learn使用球树或KD树来计算邻居图，但我不确定为什么度量的形式会影响算法的运行时间。为了量化影响，我执行了一个模拟实验，其中我使用欧几里得或余弦度量将KNN拟合到随机数据，并记录了每种情况下的运行时间。

浏览 6提问于2021-05-23得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

名称的近似字符串匹配算法

在K-Means聚类中使用词干提取

Kmean算法与余弦距离

一种计算两个字间编辑距离的算法

当一个单词出现的顺序或次数不重要时，两个字符串之间的最佳匹配？

聚类算法

产品价格比较工具:匹配相同项目的困难

为什么余弦距离比在科学学习中使用欧氏距离和DBSCAN algo慢得多？

给定两个文本的匹配词的索引

什么时候使用CORDIC或多项式近似更有效？

python中余弦度量的DBSCAN误差

生成两个具有给定角度的向量

余弦距离Weka

将相似文档映射到相同值的文本文档的散列函数。

记录链接问题

如何计算模糊字符串匹配中的分数？

如何有效计算数以百万计的字符串间的余弦相似度

基于内容的推荐可能吗？

浮点数中的余弦

为什么KNN在余弦距离上比欧几里德距离快得多？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐