首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Sweet Snippet 之 字符串编辑距离

本文链接:https://blog.csdn.net/tkokof1/article/details/100709721 字符串编辑距离的简单实现 字符串编辑距离应该是动态规划中的代表问题了:...给定两个字符串 aaa 与 bbb,求解将 aaa 编辑至 bbb 的操作步数(距离),编辑包含以下两种操作: 删除某一字符 增加某一字符 (这里我们不允许变更某一字符,注意一下) 求解方法则是根据子问题的结果..."递推"出原问题的结果: 设字符串 aaa 的长度为 mmm, 字符串 bbb 的长度为 nnn, 我们定义问题 C(i,j)C(i, j)C(i,j) C(i,j)C(i, j)C(i,j) : aaa...的(前缀)子串(长度为 iii) 与 bbb 的(前缀)子串(长度为 jjj) 的字符串编辑距离....local edit_dist_buffer = {} return edit_dist_recur(a, b, #a, #b, edit_dist_buffer) end 另外还看到一种基于编辑

41130
您找到你想要的搜索结果了吗?
是的
没有找到

最小编辑距离

a[1]-a[i] 转换为 b[1]-b[i] 的编辑距离 那么有如下递归规律( a[i] 和 b[j] 分别是字符串 a 和 b 的最后一位): 当 a[i] 等于 b[j]...时, d[i][j] = d[i-1][j-1] , 比如 fxy -> fay 的编辑距离等于 fx -> fa 的编辑距离 当 a[i] 不等于 b[j] 时, d[i][j] 等于如下...j] ), 比如 fxy -> fab 的编辑距离 = fxyb -> fab 的编辑距离 + 1 = fxy -> fa 的编辑距离 + 1 d[i-1][j-1] + 1(将 a[i] 替换为...b[j] ), 比如 fxy -> fab 的编辑距离 = fxb -> fab 的编辑距离 + 1 = fx -> fa 的编辑距离 + 1 递归边界: a[i][0] = i , b 字符串为空...,表示将 a[1]-a[i] 全部删除,所以编辑距离为 i a[0][j] = j , a 字符串为空,表示 a 插入 b[1]-b[j] ,所以编辑距离为 j 代码 按照上面的思路将代码写下来

83310

理解编辑距离

顾名思义,编辑距离(Edit distance)是一种距离,用于衡量两个字符串之间的远近程度,方式是一个字符串至少需要多少次基础变换才能变成另一个字符串,可应用在拼写检查、判断 DNA 相似度等场景中。...根据可操作的基础变换不同,可分为以下几种: 莱文斯坦距离(Levenshtein distance):最常见的编辑距离,基础变换包括插入、删除和替换。...但是需要注意一点的是,当每种变换发生时,产生的距离(或者称为代价)并不一定是 1,例如斯坦福大学关于最小编辑距离的课件中,一次替换产生的距离就可能是 2。...汉明距离:基础变换只包括替换,所以只能应用于两个字符串长度相等的情况。 本文只讨论最常见的第一种形式,莱文斯坦距离。 解法 解法有两种:暴力法和动态规划法。...Weighted Edit Distance,即加权编辑距离,这其实是在初始化和后续计算时加入了一些权重作为先验,一步操作产生的距离不再是 1 或者 2。 其他变种…… 这些等有时间再说吧。

1.2K30

编辑距离

https://blog.csdn.net/ghsau/article/details/78903076 定义 编辑距离又称Leveinshtein距离,是由俄罗斯科学家...编辑距离是计算两个文本相似度的算法之一,以字符串为例,字符串a和字符串b的编辑距离是将a转换成b的最小操作次数,这里的操作包括三种: 插入一个字符 删除一个字符 替换一个字符 举个例子,kitten和sitting...的编辑距离是3,kitten -> sitten(k替换为s) -> sittin(e替换为i) -> sitting(插入g),至少要做3次操作。...),一个字符串的长度为0,编辑距离自然是另一个字符串的长度当min(i,j)=0时,lev_{a,b}(i,j)=max(i,j),一个字符串的长度为0,编辑距离自然是另一个字符串的长度 当ai=bj时...; } leftTop = nextLeftTop; } } return d[d.length - 1]; } 应用 编辑距离是基于文本自身去计算

62530

8.动态规划(1)——字符串编辑距离

编辑距离(Edit Distance),在本文指的是Levenshtein距离,也就是字符串S1通过插入、修改、删除三种操作最少能变换成字符串S2的次数。...例如:S1 = abc,S2 = abf,编辑距离d = 1(只需将c修改为f)。在本文中将利用动态规划的算法思想对字符串编辑距离求解。   ...可以看出红色方块即是最终所求的编辑距离,整个求解过程就是填满这个表——二维数组。下面是Java、Python分别对字符串编辑距离的动态规划求解。...len(s1) #s1字符串长度 23 n = len(s2) #s2字符串长度 24 if m == 0: 25 return n #s1字符串长度为0,此时的编辑距离就是...s2字符串长度 26 if n == 0: 27 return m #s2字符串长度为0,此时的编辑距离就是s1字符串长度 28 solutionMatrix =

1.7K100

编辑距离 (Levenshtein Distance算法)

编辑距离是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。...一般来说,两个字符串编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离(为了方便,本文后续出现的“距离”,如果没有特别说明,则默认为“编辑距离”)为0(不需要任何操作)。...不难分析出,两个字符串编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。...形式化定义 问题描述 给定两个字符串A和B,求字符串A至少经过多少步字符操作变成字符串B。 问题解决 当其中某个字符串长度为0的时候,编辑距离就是另一个字符串的长度....那么A[0] = B[0];的时候, 那么此时编辑距离依旧是0, 我们可以直接去除字符串的第一个字符了.

2.6K10

序列比对(25)编辑距离

本文介绍两个字符串编辑距离并给出代码。 编辑距离 ?...编辑距离的求解过程和全局比对是十分相似的(关于全局比对,可以参见前文《序列比对(一)全局比对Needleman-Wunsch算法》),都需要全部符号参与比对,都允许插入、缺失和错配。...所以,编辑距离可以用动态规划算法求解,其迭代公式是: ? 效果如下: ?...编辑距离与最长公共子序列 在只允许插入和缺失而不允许错配的情况下,两个字符串编辑距离可以通过最长公共子序列的长度(关于最长公共子序列,可以参看前文《序列比对(24)最长公共子序列》)间接算出来。...解编辑距离的代码 #include #include #include #define MAXSEQ 1000 #define GAP_CHAR

1.3K10

经动态规划:编辑距离

编辑距离可以衡量两个 DNA 序列的相似度,编辑距离越小,说明这两段 DNA 越相似,说不定这俩 DNA 的主人是远古近亲啥的。 下面言归正传,详细讲解一下编辑距离该怎么算,相信本文会让你有收获。...一、思路 编辑距离问题就是给我们两个字符串s1和s2,只能用三种操作,让我们把s1变成s2,求最少的操作数。...设两个字符串分别为 "rad" 和 "apple",为了把s1变成s2,算法会这样进行: 请记住这个 GIF 过程,这样就能算出编辑距离。关键在于如何做出正确的操作,稍后会讲。...为什么呢,因为易于找出状态转移的关系,比如编辑距离的 DP table: 还有一个细节,既然每个dp[i][j]只和它附近的三个状态有关,空间复杂度是可以压缩成 O(min(M,N)) 的(M,N 是两个字符串的长度...你可能还会问,这里只求出了最小的编辑距离,那具体的操作是什么?之前举的修改公众号文章的例子,只有一个最小编辑距离肯定不够,还得知道具体怎么修改才行。

31420

精读《算法题 - 编辑距离

今天我们看一道 leetcode hard 难度题目:编辑距离。 题目 给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数。...如果我们仅用一个变量,只有两种定义方法: dp(i) 返回 word1 下标为 i 时最短编辑距离。 dp(i) 返回 word2 下标为 i 时最短编辑距离。...动态规划 有了上面的思考,动态规划的定义就清楚了: 定义 i 为 word1 下标,j 为 word2 下标,dp(i,j) 返回 word1 下标为 i,且 word2 下标为 j 时最短编辑距离。...让我们再审视一下 dp(i,j) 的含义:除了返回最短编辑距离外,正因为我们知道了最短编辑距离,所以无论操作步骤、过程如何,都可以假设我们只要做了若干步操作,下标分别截止到 i、j 的 word1、word2...讨论地址是:精读《算法 - 编辑距离》· Issue #501 · dt-fe/weekly 如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。前端精读 - 帮你筛选靠谱的内容。

16020
领券