开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用re.search语法来匹配pdf文档中的关键字列表？

re.search语法是Python中的正则表达式模块re中的一个方法，用于在字符串中搜索匹配指定模式的内容。要使用re.search语法来匹配pdf文档中的关键字列表，可以按照以下步骤进行操作：

导入必要的模块：

import re
import PyPDF2

打开pdf文档：

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

这里使用了PyPDF2库来处理pdf文档，需要先安装该库。

定义关键字列表：

keywords = ['keyword1', 'keyword2', 'keyword3']

将需要匹配的关键字存储在一个列表中。

遍历pdf文档的每一页：

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()

使用getPage方法获取每一页的内容，并使用extractText方法提取文本内容。

使用re.search语法匹配关键字：

for keyword in keywords:
    if re.search(keyword, page_text, re.IGNORECASE):
        print(f"关键字 {keyword} 在第 {page_num+1} 页中找到了。")

使用re.search方法在每一页的文本内容中搜索关键字，re.IGNORECASE参数表示忽略大小写。如果匹配成功，则打印出关键字在哪一页中找到。

完整代码示例：

import re
import PyPDF2

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

keywords = ['keyword1', 'keyword2', 'keyword3']

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()

    for keyword in keywords:
        if re.search(keyword, page_text, re.IGNORECASE):
            print(f"关键字 {keyword} 在第 {page_num+1} 页中找到了。")

pdf_file.close()

注意：以上代码只是简单示例，实际应用中可能需要处理更复杂的pdf文档结构和内容提取方式。另外，关于pdf文档的处理和解析，还可以考虑使用其他专门的pdf处理库，如pdfminer、pdfplumber等。

相关搜索:使用MongoDB,如何根据匹配从列表中删除嵌入文档匹配列表中的关键字，然后使用regexp或其他？如何迭代关键字列表来填充Python中的函数？如何使用find()返回具有匹配值列表的多个文档如何查找嵌入列表中具有匹配字段的所有文档使用“in”关键字匹配列表中的子字符串无法正常工作如何使用mongoose聚合来根据字段获取两个匹配文档的总和如何根据不同列表中的单词匹配来拆分字符串？如何使用pandas中的列与列列表和值列表之间的匹配来填充数据框？如果python中的关键字匹配，如何迭代列表和删除某些项如何使用列表理解来排除列表中的最大值如何使用Research Kit中的contentURL来预制在线PDF文件？如何使用StreamBuilder显示firestore文档中的数据列表如何使用Flask来href python列表中的元素？如何使用startAfter()来获取列表中最后一个文档之后的数据？Group by使用pymongo只返回mongodb中第一个匹配的文档，如何检索所有匹配的文档？在数据帧的每一行中搜索时，如何从关键字列表中获取匹配的关键字？如何使用'toHaveClass‘来匹配Jest中的子字符串？如何使用Jsoup解析HTML文档中的“tagname”元素列表？如何最好地使用Riverpod来管理列表中的项目

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何使用EvilTree在文件中搜索正则或关键字匹配的内容

但EvilTree还增加了在文件中搜索用户提供的关键字或正则表达式的额外功能，而且还支持突出高亮显示包含匹配项的关键字/内容。 ...工具特性 1、当在嵌套目录结构的文件中搜索敏感信息时，能够可视化哪些文件包含用户提供的关键字/正则表达式模式以及这些文件在文件夹层次结构中的位置，这是EvilTree的一个非常显著的优势； 2、“tree...接下来，使用下列命令将该项目源码克隆至本地： git clone https://github.com/t3l3machus/eviltree.git（向右滑动、查看更多）工具使用样例样例一...-执行一次正则表达式搜索，在/var/www中寻找匹配“password = something”的字符串：样例二-使用逗号分隔的关键字搜索敏感信息：样例三-使用“-i”参数只显示匹配的关键字/...正则式内容（减少输出内容长度）：有用的关键字/正则表达式模式搜索密码可用的正则表达式 -x ".{0,3}passw.{0,3}[=]{1}.{0,18}" 搜索敏感信息可用的关键字

4K1 0

正则表达式

正则表达式（简称为“regex”），允许用户使用他们能想到的、几乎任何类型的规则来搜索字符串。例如，查找字符串中的所有大写字母，或查找文档中的电话号码。正则表达式因其看似奇怪的语法而臭名昭著。...这种奇怪的语法是其灵活性的副产品。正则表达式必须能够过滤掉可以想象的任何字符串模式，这就是为什么它们具有复杂的字符串模式的格式。我们使用 Python 内置的 re 库来处理正则表达式。...() (12, 17) >>> match.start() 12 >>> match.end() 17 如果在被搜索的文本中，有多个匹配对象，结果如何？...在正则表达式中，数字或单个字符串等可以用不同的编码来表示，用这些编码可以构建一个“模式字符串”（pattern string）。请注意，在模式字符串中会大量使用反斜杠 \ 。...分组继续以上面的电话号码为例，是由三个数字一组组成的，如果要每三个数字作为一个单位来搜索，则需要在正则表达式中分组，分组方法就是使用 () 实现，例如： >>> phone = re.search(r

5684 0

NLP将迎来黄金十年，7个案例带你入门（附Python代码）

比如说抽取以下文本中的年份，每一行的格式不同，因此没有办法通过Python提供的字符串方法来抽取，这个时候我们往往考虑使用正则表达式。...-“July 16, 2017” -“16/07/2009” -“Summer 2008” 02 匹配字符串在Python中，我们会使用re模块来实现正则表达式。...符号含义 ^ 匹配开始的字符串 $ 匹配结尾的字符串 ▲匹配开始与结尾的字符串举个例子： “^a”代表的是匹配所有以字母a开头的字符串 “a$”代表的是所有以字母a结尾的字符串我们现在来演示下如何查找以...04 抽取文本中的数字 1. 通过正则表达式匹配年份 “[0-9]”代表的是从0到9的所有数字，那相对的“[a-z]”代表的是所有a-z小写字母。我们通过一个小例子来讲解下如何使用。...抽取所有的年份我们使用Python中的re模块的另一个方法findall()来返回匹配带正则表达式的那部分字符串。

1.6K3 0

python 历险记(六）— pytho

正则表达式的语法及使用实例正则表达式语法有哪些？这些正则到底该怎么用？...小结参考文档系列文章列表引言刚接触正则表达式，我也曾被它们天书似的符号组合给吓住，但经过一段时间的深入学习，发现它并没有想象中那么可怕，只要多实践，多理解，也是可以轻松搞定的。...正则表达式的语法以及在 python 中这些语法是如何使用的？正则表达式如何处理中文字符？ python 的正则表达式库中有哪些重要的函数？什么是正则表达式？...正则表达式使用单个字符串来描述，匹配一系列符合某个句法规则的字符串。...正则表达式的语法及使用实例对刚接触的同学来说，正则表达式的语法很晦涩。

7071 0

【Python】爬虫出发前的装备之一正则表达式

转义符匹配规则在正则表达式语法中有很多字符除了其自身意义外，还有语法赋予的特殊意义。如：^、$、？、*…… 如在 This is my lo中匹配出ve，则表达式不能写成 love。...默认情况下，正则表达式的语法解析器不会把其视为其自身含义，而是把它解析成特定的含义（边界定义）。所以表达式中需使用转义符 \ 进行转义。...自定义字符集合用户可以定义自己的字符集合，用来满足开发时的特定需要，如在 123456789ABaCbDEcdFG 中查找或匹配奇数和小写字母。自定义集合使用 [ ] 来定义。...号正则表达式的语法相对而言较简单，可以在使用过程中查阅相关文档 2. Python 中使用正则表达式 Python 提供有正则表达式模块，使用时只需要导入即可。...re.search 相同 re.search　方法匹配到一个结果后便结束 re.findall 顾名思义，会找到所有符合规则的匹配项，并以列表类型返回案例: import re #返回 Match

8813 0

项目实战 | Python爬虫概述与实践（二）

这篇文章是介绍python爬虫的第二篇文章，主要关注如何从服务器响应的HTML文档中解析提取想要的信息，内容安排如下： BeautifulSoup方法正则表达式方法二、BeautifulSoup...1.安装首先我们需要安装BeautifulSoup库，可以在cmd下使用pip安装 pip install beautifulSoup4 2.使用二话不说，先来一段简单的HTML文档创建BeautifulSoup...语法： Find(name,attrs,recursive,text,**wargs) 比如，我们要查找上述HTML文档中第一个标签的内容 from bs4 import BeautifulSoup...) tips： “class”是python的保留关键字，在查找class属性时可以采用以下两种方法 #使用BeautifulSoup自带关键字 class_ second_li=soup.find(...，列表中每一项为符合条件的标签。

8051 0

python基础-正则使用

*python$',content) print(result.group(1)) #result.group(n)为匹配的目标贪婪匹配简单理解就是能匹配多少就匹配多少，就像上例中的匹配方式，匹配结果为...，这样即表示非贪婪匹配当匹配的内容里出现换行时该如何匹配呢？...加一个参数，re.S即可如果使用正则匹配，尽量使用泛匹配，非贪婪模式，有换行则使用re.S re.search 除了rs.match方法，还有re.search，使用re.search时便非常方便了，...因为它是扫描整个字符串并返回第一个成功的匹配，比如我们查找一些关键字，该关键字并没有在行首，可能在中间位置，此时在使用re.match时便匹配不到了。...可以看到使用re.match是匹配不到的，换re.search试试所以：能尽量使用re.search就不要使用re.match re.findall 搜索字符串，以列表形式返回全部能匹配的子串先简单介绍这么多

3122 0

一文告诉你，如何使用Python构建一个“谷歌搜索”系统 | 内附代码

来源 | hackernoon 编译 | 武明利责编 | Carol 出品 | AI科技大本营（ID:rgznai100）在这篇文章中，我将向您展示如何使用Python构建自己的答案查找系统。...使用VisionAI，您可以执行诸如为图像分配标签来组织图像，获取推荐的裁切顶点，检测著名的风景或地方，提取文本等工作。检查文档以启用和设置API。...另外，如果您想从Google的搜索列表中抓取特定的数据，不要使用inspect元素来查找元素的属性，而是打印整个页面来查看属性，因为它与实际的属性有所不同。...问答系统这是算法的主要部分。从前3个结果中抓取信息后，程序应该通过迭代文档来检测答案。首先，我认为最好使用相似度算法来检测与问题最相似的文档，但是我不知道如何实现它。...它打印出确切的答案和包含答案的段落。基本上，当从图片中提取问题并将其发送到系统时，检索器将从已抓取数据中选择最有可能包含答案的文档列表。如前所述，它计算问题与抓取数据中每个文档之间的余弦相似度。

1.4K1 0

Python3.8 特性介绍

简介 Python3.8 已经发布了, 官方文档看这里 What’s New In Python 3.8. 介绍一些 Python3.8 中的新特性...., expected <= 10)") 用在 if 判断中, 避免调用 len() 两次. discount = 0.0 if (mo := re.search(r'(\d+)% discount',...clean_name.title() for name in names if (clean_name := normalize('NFC', name)) in allowed_names] 用在列表推导中...仅位置参数 / 新的函数参数语法 / 指明有些函数参数必须被指定为位置参数, 不能被用作关键字参数. def f(a, b, /, c, d, *, e, f): print(a, b, c, d,...e, f) 在上面的例子中, a 和 b 是仅位置参数, c 和 d 既可以是位置参数又可以是关键字参数, e 和 f 必须是关键字参数. >>> def f(a, b, /, **kwargs):

5141 0

两天研习Python基础（九）文本处理

匹配除换行符\n之外的字符 | 或操作符，用于匹配多个模式 () 用于模式分组和提取 [] 字符类 - 匹配多个字符中的一个 \^ 使用\ 匹配元字符量词描述 * 匹配之前的字符0或多次 + 匹配之前的字符...匹配之前的字符0或1次 {n} 匹配n次 {n,} 匹配至少n次 {n,m} 匹配至少n次，至多m次字符类描述 [aeiou] 匹配任何元音 [^aeiou] ^ 倒置选择，所以这会匹配任何的辅音...[a-f] 匹配abcdef中任意字符 \d 匹配数字，跟[0-9]一样 \D 匹配非数字，跟 [^0-9] 或 [^\d]一样 \w 匹配字母和下划线，跟[a-zA-Z_]一样 \W 匹配非字母和非下划线字符...详情和标记长名变量描述 \1, \2, \3 等等引用匹配的模式 \g, \g, \g etc 引用匹配的模式，用于区分数字和引用模式匹配和提取匹配/提取字符序列使用re.search...()查看是否一个字符串包含某个模式使用re.findall()获得一个匹配模式列表使用re.split()获得一个基于模式分割字符串的列表它们的语法如下 re.search(pattern, string

1K1 0

Scrapy的CrawlSpider用法

官方文档 https://docs.scrapy.org/en/latest/topics/spiders.html#crawlspider CrawlSpider定义了一组用以提取链接的规则，...每条Rule定义了抓取网页的方式。如果多条规则匹配到同一链接，根据定义规则的顺序，使用第一个链接。...； callback是调回函数，注意不要使用parse做调回函数； cb_kwargs是一个字典，可以将关键字参数传给调回函数； follow是一个布尔值，指定要不要抓取链接。...如果allow为空，则匹配所有链接； deny：（一个或一个列表）出链必须要匹配的正则表达式，以做排除。优先于allow。...）要忽略的后缀，如果为空，则为包scrapy.linkextractors中的列表IGNORED_EXTENSIONS，如下所示： IGNORED_EXTENSIONS = [ # 图片

1.2K3 0

Python：正则表达式 re 模块

re 模块的使用方法，其实，注意上面提到的三点差异就好 1、match 说明： re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回 None。...语法： re.match(pattern, string, flags=0) flags为可选标识，多个标识可以通过按位或 (|) 来指定。...匹配成功re.match方法返回一个匹配的对象，可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。group() 或 group(0)，返回整个正则表达式的匹配结果。...语法： re.search(pattern, string, flags=0) 匹配成功re.search方法返回一个匹配的对象，否则返回None。...，并返回一个列表，如果没有找到匹配的，则返回空列表。

6442 0

Python3 正则表达式特殊符号及用法.md

3.分组在正则表达式中，使用元字符 ( ) 来划分组,它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符*?...产生原因：复杂的正则表达式中，由于有太多的组因此通过组的序号来跟踪和使用会变得困难。正则表达式的(?…)扩展语法：问号 ? 紧跟在左小括号 ( 后边，本身是一个语法错误的写法，因为 ?...命名组: 普通子组我们使用序列来访问它们，命名组则可以使用一个有意义的名字来进行访问。命名组的语法是 Python 特有的扩展语法：(?P)。很明显里边的 name 就是命名组的名字啦。...P[0-9][0-9])' r'"') #正则表达式中，反向引用的语法像 (...)\1 是使用序号的方式来访问子组；在命名组里，显然也是有对应的变体：使用名字来代替序号...Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

1.4K1 0

Python 办公小助手：修改 PDF 中的表格

日常工作中，我们或多或少都会接触到 Excel 表格、Word 文档和 PDF 文件。偶尔来个处理文件的任务，几个快捷键操作一下——搞定！...此时如果我们掌握些 Python 编程的技巧，整理下文件处理的流程通过编码来实现，不仅省时省力省心，还可以精进编码技术。今天我们就通过一个 PDF 处理的实例来演示下 Python 助力办公的过程。...PDF 中的表格就好了！...拿它用来做代码及运行结果展示非常好用——下文记录的过程就是通过它运行代码截图所得。 1. 首先，导入 tabula，使用其函数读取 PDF 中的表格数据： ?...拿到了“批号”数据，我们只选取字母数字拼接的数据串。接下来采用正则表达式，按照批号数据格式中只包含大写字母、数字以及中间会夹杂空格，制定匹配模式进行匹配提取： ?

2.1K2 0

Python3 正则表达式特殊符号及用法.md

3.分组在正则表达式中，使用元字符 ( ) 来划分组,它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符*?...产生原因：复杂的正则表达式中，由于有太多的组因此通过组的序号来跟踪和使用会变得困难。正则表达式的(?…)扩展语法：问号 ? 紧跟在左小括号 ( 后边，本身是一个语法错误的写法，因为 ?...命名组: 普通子组我们使用序列来访问它们，命名组则可以使用一个有意义的名字来进行访问。命名组的语法是 Python 特有的扩展语法：(?P)。很明显里边的 name 就是命名组的名字啦。...P[0-9][0-9])' r'"') #正则表达式中，反向引用的语法像 (...)\1 是使用序号的方式来访问子组；在命名组里，显然也是有对应的变体：使用名字来代替序号...Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

2.6K2 0

【珍藏版】长文详解python正则表达式

语法：re.search(pattern, string, flags=0) 例子： ? 3. re.sub函数功能：re.sub用于替换字符串中的匹配项。...6. findall函数功能：在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。...函数返回值函数re.finditer 、 re.match和re.search 返回匹配对象，而findall、split返回列表。 4. re.compile函数是个谜。...2. search函数使用语法：（1）re.search(pattern, string, flags=0) 这个函数前面已经讲解过了。...修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。 ? 例子： ? 六、正则表达式模式下面列出了正则表达式模式语法中的特殊元素。 ? ?

8392 0

python 菜鸟教程正则_华为mate30好用不

不管你是python还是其他的语言都是一样的，所以背不过就抄到记住为止！这个你背不过，再好的教程看了也没用。如何巧记？我们需要对其进行分类。...不同点： re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None re.search匹配整个字符串，直到找到一个匹配 # re.search s =...split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下： re.split(pattern, string[, maxsplit=0, flags=0]) import re...re.sub用于替换字符串中的匹配项。...语法： re.sub(pattern, repl, string, count=0, flags=0) 参数： pattern : 正则中的模式字符串。

4892 0

Python正则表达式：强大的字符串匹配工具

在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块。re 模块使 Python 语言拥有全部的正则表达式功能。...Python中的正则表达式与大多数编程语言相同，正则表达式里也使用\作为转义字符，这就可能造成反斜杠困扰。...假如你需要匹配文本中的字符\，那么使用编程语言表示的正则表达式里将需要4个反斜杠\：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。...print(re.match(r'\\', '\\\\hello')) # 使用两个反斜杠即可匹配一个 \\ 查找方法的使用在Python中的查找匹配方法，常见的有下面四种，他们的用法大致相同，但是匹配出的结果却不同...object; span=(2, 4), match='天气'> print(result2) # None findall 方法的使用在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的

801 0

写爬虫，不会正则怎么行？

导读：正则在各语言中的使用是有差异的，本文以 Python 3 为基础。本文主要讲述的是正则的语法，对于 re 模块不做过多描述，只会对一些特殊地方做提示。...Python 中的修饰符：修饰符描述 re.A 匹配 ASCII字符类，影响 \w, \W, \b, \B, \d, \D re.I 忽略大小写 re.L 做本地化识别匹配（这个极少极少使用） re.M...P=name) 匹配之前由名为 name 的组匹配的文本注意：在其他语言或者网上的一些正则工具中，分组命名的语法是 (?exp) 或 (?'...(id/name)yes|no) 如果指定分组存在，则匹配 yes 模式，否则匹配 no 模式此语法极少用到，印象中只用过一次。...简单来说，就是如果没有分组，则返回整条正则匹配结果的列表；如果有 1 个分组，则返回分组匹配到的结果的列表；如果有多个分组，则返回分组匹配到的结果的元组的列表。

5361 0

Python——正则表达式特殊符号及用法

它被嵌入到 Python 中，并通过 re 模块提供给程序猿使用。使用正则表达式，你需要指定一些规则来描述那些你希望匹配的字符串集合。...对于高级的使用，你可能需要更关注匹配引擎是如何执行给定的 RE，并通过一定的方式来编写 RE，以便产生一个可以运行得更快的字节码。...正则表达式语言相对较小，并且受到限制，所以不是所有可能的字符串处理任务都可以使用正则表达式来完成。还有一些特殊的任务，可以使用正则表达式来完成，但是表达式会因此而变得非常复杂。...{ } [ ] \ | ( ) 在《Python3 如何优雅地使用正则表达式（详解一）》中主要是介绍了以上几种元字符的用法和举例，如有需要可以看看。...=(0, 8), match='abbbbbbc'> >>> #如何匹配0-255中的数字 >>> re.search(r'[1]\d\d|2[0-4]\d|25[0-5]]','188') <_sre.SRE_Match

1.3K10 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭