字符串匹配算法用于在一个文本串中查找一个模式串的出现位置。字符串匹配问题在文本处理、搜索引擎、数据分析等领域都有广泛的应用。
KMP算法是我们数据结构串中最难也是最重要的算法。难是因为KMP算法的代码很优美简洁干练,但里面包含着非常深的思维。真正理解代码的人可以说对KMP算法的了解已经相当深入了。而且这个算法的不少东西的确不容易讲懂,很多正规的书本把概念一摆出直接劝退无数人。这篇文章将尽量以最详细的方式配图介绍KMP算法及其改进。文章的开始我先对KMP算法的三位创始人Knuth,Morris,Pratt致敬,懂得这个算法的流程后你真的不得不佩服他们的聪明才智。
kmp算法又称“看毛片”算法,是一个效率非常高的字符串匹配算法。不过由于其难以理解,所以在很长的一段时间内一直没有搞懂。虽然网上有很多资料,但是鲜见好的博客能简单明了地将其讲清楚。在此,综合网上比较好的几个博客(参见最后),尽自己的努力争取将kmp算法思想和实现讲清楚。 kmp算法完成的任务是:给定两个字符串O和f,长度分别为n和m,判断f是否在O中出现,如果出现则返回出现的位置。常规方法是遍历a的每一个位置,然后从该位置开始和b进行匹配,但是这种方法的复杂度是O(nm)。kmp算法通过一个O(m)的预处理
字符串匹配是我们在编程中常见的问题,其中从一个字符串(主串)中检测出另一个字符串(模式串)是一个非常经典的问题,当提及到这个问题时我们首先想到的算法可能就是暴力匹配,下面的动图就展示了暴力匹配的流程。
KMP算法是Knuth-Morris-Pratt字符串查找算法,以创作者们的名字首个大写字母命名,用于处理字符串查找问题。
第一次学习KMP算法走了不少弯路,下面老高按照自己的学习步骤,总结一下KMP算法的要点,如果有错误或者疑问,欢迎指正!
Ⅱ.j=2,k=1,P[a]!=P[b],∴k = next[k]即k = next[1]=0,j=2不变
KMP算法 内部涉及到的数学原理与知识太多,本文只会对 KMP算法 的运行过程、 部分匹配表 、next数组 进行介绍,如果理解了这三点再去阅读其它有关 KMP算法 的文章肯定能有个清晰的认识。
KMP算法可以用于文档管理软件中的字符串匹配功能。在监控软件中,需要对用户的电脑活动进行监控,包括监控用户输入的文本内容。为了保护公司的机密信息,监控软件需要检测用户输入的文本中是否包含敏感信息,如公司机密信息、禁止使用的词汇等。
现实生活中,字符串匹配在很多的应用场景里都有着极其重要的作用,包括生物信息学、信息检索、拼写检查、语言翻译、数据压缩、网络入侵检测等等,至此诞生了很多的算法,那么我们今天就来探索这两种经典的算法。
也就是说,KMP算法是用来解决字符串匹配问题的,从一个主字符串text中寻找一个子字符串(模式字符串)pattern,看这个子串是否在主串中,比如对于text='abaacababcac'和pattern='ababc',子串是包含在主串中的,同时它在主串中的索引是5。
什么是BF算法❓ BF算法,即暴力(Brute Force)算法,是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配,若相等,则继续比较S的第二个字符和 T的第二个字符;若不相等,则比较S的第二个字和T的第一个字符,依次比较下去,直到得出最后的匹配结果。BF算法是一种蛮力算法。 对于BF算法而言,如果匹配到不相等的,则模式串T要回到第一个字符。而KMP则会通过next数组回退到特定的位置。后面会展开说明。
KMP乍一听像是某播放器的名字,仔细一看像是看毛片的缩写……但其实,它是取自发明该算法的三个大佬的名称缩写:让我们记住这三位大佬,他们分别是Knuth、Morris、Pratt。
kmp算法用于字符串的模式匹配,也就是找到模式字符串在目标字符串的第一次出现的位置 比如 abababc 那么bab在其位置1处,bc在其位置5处 我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配,但那样的时间复杂度会是O(m*n) kmp算法保证了时间复杂度为O(m+n)
示例:目标串s="aaaaab",模式串t="aaab". 1.2 常见的模式匹配算法:
今天来和大家分享一个关于字符串比较的模式匹配算法,在数据结构中对字符串的相关操作中,对子串的定位操作通常称为串的模式匹配,同样他也是各种串处理中最重要的操作之一,同时子串也称为模式串,关于主串和模式串的匹配算法常用的主要有两种:朴素的模式匹配算法和KMP算法(改进的模式匹配算法),接下来将分别对这两种算法进行分析。
以上代码中的buildNext函数和findLongestPrefix函数都是KMP算法中的常见实现。其中,buildNext函数用于构建模式串T的部分匹配表(也称为next数组),而findLongestPrefix函数则使用双指针和next数组进行匹配,寻找T串的前缀在S串中出现的最长长度。
只要在匹配的过程当中,匹配失败,那么:i回退到刚刚位置的下一个,j回退到0下标重新开始。
有句话很有趣:Stay hungry, stay foolish. 个人根据对这句话的理解 以一个有强烈求知欲的小白的角度,用提问解答的方式组织全文,以此发现自己知识图谱的不足并积极学习新的知识。
这篇文章我都忘记啥时候写的了, 现在是放在我的博客上面, 时间记录的是17年. 同样, 搬过这里来, 文章内容我还是照样不更改, 保持原样, 代码可能会有点差...:)
python字符串str是在Python编写程序过程中,最常见的一种基本数据类型。字符串是许多单个子串组成的序列,其主要是用来表示文本。字符串是不可变数据类型,也就是说你要改变原字符串内的元素,只能是新建另一个字符串。字符串匹配就是基于最简单的字符比较,其中的模式串就是普通字符串,所做匹配是在目标串里查找等于模式串的子串。也就是说,比较的一方是表示模式的字符串,另一方是目标字符串的所有可能子串。我们常用的就是朴素的串匹配算法和无回溯串匹配算法(KMP算法)。
首先了解kmp算法是干嘛的,它的作用是进行一个模式匹配,即在一个字符串中寻找是否存在某一个子串,比如在aabbccabc这个主串中是否存在abc这个模式串,并且输入他们匹配时,在主串的位置,如上例中,就应该输出的是“在第7个位置他们进行匹配”。 这就是kmp算法的作用。
KMP算法,对于刚开始学算法的人还是有一点的难度的,但是总体来说比较简单,本文的目的就是用图文+代码的形式来搞懂kmp算法,至于是否吹牛,还请你看下去!
理论篇——帮你把KMP算法学个通透!(理论篇)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
KMP 算法是一种改进的字符串匹配算法,用于判断一个字符串是否是另一个字符串的子串
https://leetcode-cn.com/problems/repeated-substring-pattern/
Python字符串str是在Python编写程序过程中,最常见的一种基本数据类型。字符串是许多单个子串组成的序列,其主要是用来表示文本。字符串是不可变数据类型,也就是说你要改变原字符串内的元素,只能是新建另一个字符串。字符串匹配就是基于最简单的字符比较,其中的模式串就是普通字符串,所做匹配是在目标串里查找等于模式串的子串。也就是说,比较的一方是表示模式的字符串,另一方是目标字符串的所有可能子串。我们常用的就是朴素的串匹配算法和无回溯串匹配算法(KMP算法)。
注意,是KMP算法,不是MMP哈,我没有骂人。KMP算法是用来做字符串匹配的,除了KMP算法分,还有暴力匹配算法,也是用来做字符串匹配的。接下来先看看暴力匹配算法,你就知道为啥会出现KMP算法了。
对于一个给定的 source 字符串和一个 target 字符串,你应该在 source 字符串中找出 target 字符串出现的第一个位置(从0开始)。如果不存在,则返回 -1。
PHP数据结构(七)——串与实现KMP算法 (原创内容,转载请注明来源,谢谢) 一、定义 串是0个或多个字符组成的有限序列,任意连续字符组成的子序列称为子串,与其对应的序列称为主串。子串在主串的第一个位置称为串的位置。当长度相等且每个字符对应相等的两个串,称为其相等。 二、串的表示方式 2.1 定长顺序存储方式 该存储方式类似线性表的顺序存储。有两种存储方式,一种是以下标为0开始的数组存储每个字符,另一种是以“\0”作为结尾。当长度超过定长时,超出部分会被截取。 2.2 堆分配存储表示 和定长的存储方
假设字符串str1是“ABCDE”,字符串str2是“CDEAB”。字符串str2可以拆分成“CDE”和“AB”,可以拼成“ABCDE”。所以str1和str2互为旋转字符串。
Tech 导读 本文介绍了几个常见的匹配算法,通过算法过程和算法分析介绍了各个算法的优缺点和使用场景,并为后续的搜索文章做个铺垫;读者可以通过比较几种算法的差异,进一步了解匹配算法演进过程以及解决问题的场景;KMP算法和Double-Array TireTree是其中算法思想的集大成者,希望读者重点关注。 01 前言 上文探究了数据结构和算法的一些基础和部分线性数据结构和部分简单非线性数据结构,本文我们来一起探究图论,以及一些字符串模式匹配的高级数据结构和算法。《搜索
在上一篇文章当中我们一起学习了KMP算法,我个人是挺喜欢KMP算法的。代码量不大,思维非常巧妙,最关键的是使用场景非常明确,就是两个字符串匹配。这种使用场景越明确的算法或者数据结构指向性越强,在做题的时候越容易联想到。越灵活的算法适用面越广,在做题的是时候越难想起来。
只要你学过数据结构与算法分析,相信你对KMP算法应该都不陌生吧?如果你没听过,不要紧,今天我们就来聊一聊这个算法。建议最好拿一张草稿纸,然后边看边理解,这样更有助于你对它的理解,更能理解它背后的精髓所在,相信你在理解完该算法之后,一定会大喊一声:妙啊!
如果 b[k] != b[j] , 则我要在前面部分里寻找能和包含 b[j] 的后缀匹配的最长前缀子串; b[k] 前面的最长匹配前缀长度就是 next[k],那么其后面一个字符就是 b[ next[k] ],如果它等于b[j],那么next[j+1] = next[k] + 1 参考文献
给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。
在解决字符串匹配问题中,若不使用python内置函数,大部分时候会想到使用BF(暴力循环)算法来解决。然而,这样会产生一个问题:算法的时间复杂度过高,匹配的字符串过长,往往会导致计算结果超时。如果使用KMP算法就能减少不必要的循环匹配计算,极大的减少算法的时间复杂度。
——老子
python实现的字符串搜索文件和java实现的字符串搜索文件,其运行速率对比还是很明显,估计问题就在python对文件编码格式上面,如图
KMP这个名字不是视频播放器,更不是看毛片,它其实是由Knuth、Morris、Pratt这三个大牛名字的合称。老外很喜欢用人名来命名算法或者是定理,数学里就有一堆,什么高斯定理、欧拉函数什么的。但是中国人更倾向于从表意上来给一个概念命名,比如勾股定理、同余定理等等。之前觉得用人名命名很洋气,作者可以青史留名,后来想想这也是英文表意能力不足,很难用表意的方式起名的体现。
我们在平时的软件开发,尤其是嵌入式开发,字符串匹配是非常重要的一个算法。而目前常用的字符串匹配算法有很多,下面就来介绍几个。
因为是由这三位学者发明的:Knuth,Morris和Pratt,所以取了三位学者名字的首字母。所以叫做KMP
最近工作比较忙, 不怎么有时间来更新公众号文章. 刚松手, 就想来搞一篇. 所以这篇文章搬运来自自己博客中的文章
JDK源码中的String.indexOf是蛮力匹配的,可是JDK库的indexOf要比KMP快?算法不是让计算效率更高吗?JDK源码如下:
KMP算法由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特—莫里斯—普拉特操作(简称KMP算法)。
字符串匹配是计算机科学中最古老、研究最广泛的问题之一。我们有很多时候需要在一个较长的字符串寻找出现的子串的位置。在字符串不长时,我们对效率可能还没有太多需求,但是当字符串很长时,便需要一个效率优秀的算法来进行更好的字符串匹配了。这次我们便引入C++的<string>头文件,利用里面的string类来进行两种算法的简单介绍。
字符串的模式匹配是NLP领域的基础任务,可以帮助我们在大量的文本内容中快速找到需要的文本信息,比如在文章中搜索关键词的位置和数量。
关于字符串匹配KMP算法其实不难,只要理解字符串下一步匹配需要移动的个数就可以了,但是说是这么说,实际理解肯定会有或多或少的问题,要是大家看完之后还是有问题有疑问的同学,可以再文章底部加我~
下面就是重复上面的重复行为,如果对当前i和j位置进行比较发生了失配,那么i不变,j去找到在next数组中对应当前位置的值,然后把j移动到该位置,再把j当前指向位置与i指向位置进行比较
E. Test time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard output Sometimes it is hard to prepare tests for programming problems. Now Bob is preparing tests to new problem about strings — input data to
领取专属 10元无门槛券
手把手带您无忧上云