文章/答案/技术大牛

发布

Levenshtein距离公式在大型数据库中运行缓慢

Levenshtein距离公式是一种用于计算两个字符串之间的编辑距离的算法。它衡量了将一个字符串转换为另一个字符串所需的最小编辑操作次数，包括插入、删除和替换字符。

在大型数据库中运行Levenshtein距离公式可能会导致性能问题，因为该算法的时间复杂度较高。对于每个字符串对的比较，需要进行多次循环和计算，这在大型数据库中可能会变得非常耗时。

为了解决这个问题，可以考虑以下优化方法：

索引优化：使用数据库索引来加快查询速度。可以创建一个索引列，存储字符串的特征值或哈希值，然后使用索引进行快速匹配和过滤。
预处理优化：在数据库中预先计算并存储字符串的Levenshtein距离，以避免每次查询时都重新计算。可以使用触发器或定时任务来更新和维护这些预计算的值。
分布式计算：将计算任务分发到多个计算节点上并行处理，以提高整体计算速度。可以使用分布式计算框架如Apache Hadoop或Spark来实现。
数据分片：将大型数据库分成多个较小的片段，每个片段都包含一部分数据。这样可以减少每次查询时需要比较的字符串对数量，从而提高查询性能。
缓存优化：使用缓存技术如Redis或Memcached来存储已计算的Levenshtein距离结果，以避免重复计算。

Levenshtein距离公式在实际应用中有许多场景，例如拼写纠错、字符串相似度匹配、DNA序列比对等。在云计算领域，可以将Levenshtein距离应用于文本搜索、数据清洗和相似度分析等任务。

对于腾讯云的相关产品和服务，可以考虑使用以下产品来支持Levenshtein距离公式的高效运行：

云数据库 TencentDB：提供高性能、可扩展的数据库服务，支持索引优化和分片技术，适合存储和查询大型数据库。
云函数 SCF：通过将计算任务分发到多个函数实例上并行执行，可以实现分布式计算和缓存优化，提高Levenshtein距离公式的计算速度。
人工智能平台 AI Lab：提供自然语言处理和文本相似度分析的API和工具，可以用于Levenshtein距离的应用场景。
对象存储 COS：用于存储和管理大规模的文本数据，支持数据预处理和缓存优化，提高Levenshtein距离公式的计算效率。

以上是腾讯云相关产品的简要介绍，更详细的产品信息和功能请参考腾讯云官方网站：https://cloud.tencent.com/

Levenshtein距离公式在大型数据库中运行缓慢

、

我使用此查询来搜索公司详细信息from company_details BEGIN DECLARE s1_char CHARSET max_len = s1_len; SET max_len = s2_len; E

浏览 1提问于2017-08-12得票数 1

1回答

比率计算

、

我有以下两个字符串：b = 'b. gudmundsson gunnar'>>> Ldist / max(len( a ), len( b )) >>> float(12)/2

浏览 1提问于2015-04-01得票数 2

回答已采纳

2回答

Levenshtein距离和Wagner-Fischer算法有什么不同

、、、

Levenshtein距离是用于度量两个序列之间差异的字符串度量。Wagner-Fischer算法是一种动态编程算法，用于计算两个字符串之间的编辑距离。都使用矩阵，我看不出有什么不同？另外，我只是在写一篇论文，我不确定如何划分它-我是应该首先解释Levenshtein距离，然后再解释Wagner-Fisher算法，还是两者兼而有之？我有点糊涂了。

浏览 69提问于2016-03-10得票数 7

2回答

在大型数据库中搜索(非常)近似的子串

、、、

我正试图在一个大型数据库中搜索长的近似子字符串。例如，查询可以是一个1000字符子字符串，它可能与匹配的Levenshtein距离相差几百次编辑。我也听说Lucene可以做到这一点，但是Lucene的levenshtein算法足够快，可以进行数百次编辑吗？也许是抄袭检测领域之外的东西？任何建议都是值得感谢的。

浏览 1提问于2010-08-08得票数 5

4回答

VBA中的Levenshtein距离

、、

我有excel表与数据，我想得到他们之间的Levenshtein距离。我已经尝试导出为文本，从脚本(php)中读取，运行Levenshtein (计算Levenshtein距离)，将其保存到excel中。但是我正在寻找一种在VBA中编程计算Levenshtein距离的方法。我该怎么做呢？

浏览 2提问于2010-11-22得票数 58

回答已采纳

1回答

使用elasticsearch搜索最相似的字符串

、

我见过的最好的实现是: postgres trigram与Levenshtein距离，但在500万个字符串中，它的运行速度很慢。一般来说，我只需要Levenshtein距离。

浏览 36提问于2019-06-18得票数 0

1回答

levenshtein在蜂巢或黑斑羚中加入的有效途径

、、、、

我想通过使用levenshtein公式比较记录来加入这两者。在实际情况下，names列可以包含多个单词。下面是我使用的代码：from NICKNAMESON(true) 上面的代码运行了很长时间，我停止了它的运行。我怎样才能使它在合理的时间内<e

浏览 4提问于2017-03-15得票数 2

1回答

用Levenshtein模糊搜索多个单词

、、

我正在编制一个postgreSQL查询，以便在我正在开发的应用程序中搜索公司名称时，允许使用模糊搜索功能。我已经发现并一直在使用Postgres的Levenshtein方法(模糊匹配模块的一部分)，并且大部分都在工作。然而，它似乎只在公司名称只有一个词时才起作用，例如：SELECT* FROM

浏览 0提问于2015-07-03得票数 4

回答已采纳

2回答

是否有任何相似函数来比较两个字符串，并给它们一个类似于枕叶余弦相似性的分数来比较数组？

、、、

我想比较字符串，并根据它们中内容的相似程度给它们打分，就像比较两个数组的枕叶余弦相似性一样。第一串：“女鞋”从逻辑上讲，我想要两个字符串之间的高分。有没有办法这样做？我正在比较字符串数组和数据帧中单个列中的另一个数组。我想这样找类似的行。能否做到这一点？

浏览 0提问于2019-02-06得票数 2

回答已采纳

2回答

模糊文本匹配C#

、

例如，可能有两个或多个条目实际上是相同的单词或短语，只是在空格或标点符号或甚至是轻微的拼写错误方面有所不同。

浏览 0提问于2011-11-22得票数 25

回答已采纳

1回答

我最初的尝试是受的启发，存储字典中每个单词的触发器，例如，单词apple在索引时被分为$ap、app、ppl、ple和le$。所有这些三元组都与它们所来自的单词相关联。我在数据库中查找这些三元组中的每一个，并将候选单词存储在与其中匹配的三元组的数量相关联的映射中。然后，我继续计算每个候选者之间的levenshtein距离，并应用以下公式： score(query, candidate) = common_trigram_number(

浏览 2提问于2019-09-23得票数 0

3回答

在查询结果中保留MySQL函数的结果(在哪里使用)

、

我的数据库中有一个MySQL函数，它计算两个字符串之间的levenshtein距离。我的查询如下：WHERE levenshtein('John',name) <= 15正如您所看到的，levenshtein距离在WHERE子句中使用。但是，在我的结果中，我还希望有一个列，其中包含每个行与"John"

浏览 4提问于2015-12-13得票数 2

回答已采纳

2回答

如何在字符串集合中搜索3个或更多字符的匹配项

、、

我正在尝试制作一个应用程序，它可以在一组名字中进行搜索，并返回与您搜索的名字相近的名字。示例:在JList中搜索jos，返回jose、josie和josh。

浏览 0提问于2017-01-15得票数 0

1回答

如何在where条件下使用VBA函数？

、、、、

我在Access数据库中使用从到Levenshtein的距离。当函数在字段列表中时，在SELECT语句中使用函数有效。例如：FROM tableSELECT field, Levenshtein(field, '

浏览 0提问于2012-11-16得票数 2

回答已采纳

2回答

在大数据集中查找相似的对象

、、

此集合存储在数据库中。当一个新对象即将被添加到数据库中时，我需要检查数据库中是否已经存在类似的对象。我可以想象这个问题是有解决办法的。

浏览 0提问于2021-08-29得票数 1

回答已采纳

3回答

修改Levenshtein距离函数来计算两组x-y坐标之间的距离？

、、

我一直在尝试修改Levenshtein距离函数，以便它可以找到两条直线之间的距离，或者x-y坐标集(换句话说，直线的相似或不同程度，而不是它们的几何距离)。不过，我遇到了一些问题。我知道你如何使用上面的值来获得删除成本，以及左边的值来获得加法，但在替换过程中，我试图使用euchlidian距离，但它对我不起作用。padlock.dtw = { _deletionC

浏览 0提问于2010-01-18得票数 4

回答已采纳

1回答

加速levenshtein查询

、、、

我有一个约100万条记录的多用户数据库管理系统，其结构如下： "ID“字段- "srch" textbox in "result"

浏览 1提问于2021-03-24得票数 0

2回答

从数据库中查找相似的人名

、、

我在MySql有一张有名字的桌子。我正在尝试，给定一个输入名称，在表中查找所有类似的名称。我听说过很多关于Levenshtien/Damerau-Levenshtein距离的事情，但这似乎不太好，我稍后会解释我的推理。

浏览 2提问于2020-08-15得票数 2

回答已采纳

1回答

CoffeeScript中的Levenshtein距离公式？

、、

我正在尝试创建或找到Levenshtein距离公式的CoffeeScript实现，也就是编辑距离。这是我到目前为止所做的一切，任何帮助都会非常感谢。只是在寻找改进，并找出这个公式！更新:我要问的问题是--我们如何在CoffeeScript中实现Levenshtein？以下是Levenshtein距离算法的“步骤”，以帮助您了解我正在尝试实现的

浏览 0提问于2011-07-10得票数 8

回答已采纳

1回答

使用gensim进行词聚类

、、、、

在我的公司，我们有一个短语列表，我们使用一个使用Damerau-Levenshtein距离公式的脚本对它们进行过滤后手动对它们进行聚类(实际上，这个数据是在Elasticsearch上的，我们使用fuzzyness示例：假设有Java Developer，这也应该被集群为Developer。Elasticsearch的模糊搜索匹配Java Developer与PHP Developer相似(Elasticsearch使用Dame

浏览 0提问于2017-05-18得票数 1

点击加载更多