将regex与由python中的Tika读取的pdf中的文本字符串一起使用-尝试查找以\n\n结尾的行

正则表达式（regex）是一种用于匹配和处理文本模式的工具。它可以与Python中的Tika库一起使用，该库用于读取PDF文件中的文本字符串。通过将regex与Tika读取的文本字符串一起使用，可以尝试查找以"\n\n"结尾的行。

具体步骤如下：

导入必要的库和模块：

import re
from tika import parser

使用Tika解析PDF文件并获取文本字符串：

parsed_pdf = parser.from_file('your_pdf_file.pdf')
text = parsed_pdf['content']

使用正则表达式查找以"\n\n"结尾的行：

pattern = r'.*\n\n'
matches = re.findall(pattern, text)

打印匹配到的行：

for match in matches:
    print(match)

这样就可以找到以"\n\n"结尾的行了。

正则表达式的概念是一种用于匹配和处理文本模式的工具。它由一系列字符和特殊字符组成，用于定义匹配规则。正则表达式可以用于字符串匹配、替换、提取等操作，非常灵活和强大。

优势：

灵活性：正则表达式可以根据不同的模式进行匹配和处理，适用于各种复杂的文本处理需求。
强大的匹配能力：正则表达式支持通配符、字符类、重复、分组等功能，可以精确匹配目标文本。
高效性：正则表达式使用特定的算法进行匹配，可以快速处理大量文本数据。

应用场景：

数据清洗：正则表达式可以用于清洗和提取文本数据，例如去除特殊字符、提取关键信息等。
文本匹配：正则表达式可以用于文本匹配，例如查找特定格式的日期、邮箱、电话号码等。
数据提取：正则表达式可以从文本中提取特定模式的数据，例如提取URL、IP地址等。
校验和验证：正则表达式可以用于验证用户输入的数据是否符合特定的格式要求，例如密码强度校验、表单验证等。

腾讯云相关产品推荐：

云服务器（CVM）：提供弹性、安全、稳定的云服务器实例，满足各种计算需求。产品介绍链接
云数据库MySQL版（CDB）：提供高性能、可扩展的云数据库服务，支持自动备份、容灾等功能。产品介绍链接
云存储（COS）：提供安全、可靠的对象存储服务，适用于图片、视频、文档等各种类型的文件存储。产品介绍链接
人工智能机器学习平台（AI Lab）：提供丰富的人工智能算法和模型，支持图像识别、自然语言处理等应用场景。产品介绍链接
物联网套件（IoT Hub）：提供全面的物联网解决方案，支持设备接入、数据管理、远程控制等功能。产品介绍链接
腾讯云区块链服务（TBaaS）：提供安全、高效的区块链服务，支持快速搭建和管理区块链网络。产品介绍链接

以上是关于将regex与由Python中的Tika读取的PDF中的文本字符串一起使用，尝试查找以"\n\n"结尾的行的完善且全面的答案。

将regex与由python中的Tika读取的pdf中的文本字符串一起使用-尝试查找以\n\n结尾的行

regex、python-3.x、apache-tika

我扫描了许多页面的文档，使用OCR使它们成为机器可读的，然后使用Python3中的Tika包读取它们，该包返回一个我标记为“fulltext”的混乱的长字符串。我正在尝试返回与此模式匹配的所有文本：作为参考，下面是我想要捕获的段落：事件描述：\<em

浏览 8提问于2019-03-29得票数 0

回答已采纳

5回答

如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析PDF文件？

python、parsing、pdf、apache-tika

我正在尝试解析几个包含工程图的PDF文件，以获取这些文件中的文本数据。我尝试将TIKA作为jar与python一起使用，并将其与jnius包一起使用(在这里使用本教程：)，但是代码抛出了一个错误。使用TIKA包，我可以传递文件并解析它们，但

浏览 0提问于2015-10-12得票数 3

3回答

BufferedReader问题-未正确响应

java

我在网上找到了这个TCP服务器，我想对它进行一点修改，以返回与客户端键入的消息不同的消息。它不能像我想要的那样工作；else {}的工作方式“很棒”，但第一个if并非如此--客户端仍在等待输入。tempus);}capitalizedSentence = clientSentence.toUpperCase() + '\n'clientSocket.getInputStr

浏览 3提问于2011-11-04得票数 0

回答已采纳

1回答

用不正确的结构OCR从PDF中提取数据

python、parsing、pdf、ocr、apache-tika

我有定期流入的发票pdfs。我从这些pdfs中提取用于各种操作和存储的数据。第一步是使用Adobe的OCR。然后，我使用tika解析pdf。在Python中：parsedPDF = parser.from_file("the_file.pdf")... 001 6

浏览 3提问于2016-07-05得票数 0

回答已采纳

1回答

当一行数据被分成两个单独的页面时，如何正确地从pdf中提取表格数据？

python、apache-tika、pdftotext

我的任务是从pdf中解析表格数据。我在python中使用"tika“库，这个库很好，但有一个问题如下： Pdf有表格格式的文本，行的一半以第2页结尾--这将表的键和值数据划分为两个不同的页面，我认为tika将这一行作为两个单独的行

浏览 5提问于2020-12-19得票数 0

2回答

Notepad++ RegEx删除以带换行符的\pard.....ending开头的行

regex、notepad++、replace、linefeed

我正在使用记事本++清理文件，并尝试删除以\pard开头并包含一些文本，然后以换行符结尾的行。但是\n在RegEx中不起作用，.*在扩展的查找和替换中也不起作用。这就是我尝试过但没有成功的方法：\pard.*\n \pard.*可以工作，但将换行符保留在RegEx中<

浏览 2提问于2010-10-25得票数 2

2回答

删除数据帧中的空行并检查相似性

python、regex、pandas、text-mining

在我的dataframe中使用regex (findall)选择非空字段，查找包含在文本源中的单词时遇到了一些困难： text = "Be careful otherwise police will capture我需要在文本字符串中查找以ful结尾的单词，然后在数据集中查找以full结尾</

浏览 21提问于2020-06-01得票数 1

回答已采纳

2回答

Python中的Regex :在两个以大写字母开头的单词之间分割空格字符

python、regex

在我的NLP管道中，我需要从正文文本中分离标题。标题总是由一系列大写单词组成，没有标点符号。使用两个空白字符\n\n将标题与正文文本分隔开来。我想使用Python中的Regex在空格上拆分标题和正文文本，结果是:这是一个标题，这是主体开始的位置。有人能帮我写正确的R

浏览 16提问于2021-12-10得票数 2

回答已采纳

3回答

PDF到文本问题- Python阿拉伯字符在某些位置被翻转

python、pdf、fonts、pdfbox、apache-tika

我有pdf文件，是使用Almohanad字体(发现)。我使用Python的Tika来提取这些pdfs中的文本。提取效果很好。然而，对于一些字符来说，结果会变得一团糟。是上面提到的pdf文件中的一个示例。import requestsfrom tika import parser

浏览 3提问于2021-03-17得票数 1

1回答

python，当使用writestr时，有一个文本换行符问题

python、zipfile、stringio

我需要你的帮助~当我使用'wirtestr‘的时候，我有一个LF问题。文本在zip中写得很好，但它只有一行，没有换行。只有我能找到分隔符，它看起来像正方形，中间有圆圈，可能是换行符的十六进制代码。

浏览 12提问于2017-02-20得票数 0

2回答

Apache检测JSON / PDF特定的mime类型

java、mime-types、apache-tika

我使用从它的base64 rapresentation中检测出一个文件Mime。不幸的是，我没有关于该文件的其他信息(例如扩展名)。Tika tika = new Tika();String mimetype = tika.detect(Base64.decode(fileString));

浏览 0提问于2018-02-05得票数 4

回答已采纳

2回答

为什么我的Python正则表达式与Windows中的换行符\r\n不匹配？

python、regex

我对Python还是很陌生的，而且我的一个正则表达式也有问题。我在网上研究过这个问题，用Python做了很多尝试，但都被困住了。由于我使用的是Windows，所以我希望\r\n能够匹配文本文件中的一个新的分行符，因为这就是Windows中终止行的方式。但我发现只有\n匹配。为什么会这样呢？下面是我的</

浏览 2提问于2020-02-27得票数 1

回答已采纳

3回答

如何使用Regex实现这一结果？

javascript、regex

给定下面的输入，在javascript中给出所需输出的regex表达式是什么？我必须在不使用多行标志的情况下实现这一点。\nabc def.\n*\n所需的输出(保持相同的行数，但将=插入空行)=\n=\n *

浏览 2提问于2018-04-28得票数 2

回答已采纳

2回答

提取二线的正则表达式

.net、regex、webharvy

使用的工具- WebHarvy REgex风味- .NETCompany: Acme associates & sonsPhone : (702) 123-4567Email : email@example.com 使用了下面的表达式=(\n.*){3}$)

浏览 2提问于2017-07-24得票数 2

回答已采纳

1回答

为什么我的Python正则表达式锚点不能在多行字符串上正确工作？

python、regex、string

我正在编写一个脚本来清理已经从PDF转换出来的文本文件。由于某种原因，锚定字符^和$ (匹配字符串的开头和结尾)在我的正则表达式中似乎不能正常工作。我在Linux上使用Python3.6.6。为什么^Credits$不匹配下面代码中的独立行Credits？>>> import re >>> my_regex =

浏览 0提问于2018-10-22得票数 2

回答已采纳

2回答

我正在试图找到\r\n\r\n的最后一次出现，并删除它之前的所有内容(并包括它)。我正在创建一个套接字并下载一个文件，然后该文件将被保存。headers保存在文件中(根据十六进制编辑器，\r\n\r\n确实存在)。但我似乎无法使用strstr找到它，根据MSDN recv返回char，它应该能够找到它吗？while ((tmpres = recv(sock, buf, BUFSIZ, 0)) > 0)char *p = strstr

浏览 5提问于2013-11-14得票数 2

回答已采纳

1回答

'\n‘== 'posix’，'\r\n‘== 'nt’(python)是对的吗？

python、posix、carriage-return、linefeed、nt

我正在编写一个python(2.7)脚本，该脚本编写一个文件，必须在linux、windows和osx上运行。不幸的是，对于兼容性问题，我不得不在windows风格中使用回车和行提要。someFunc.returnA_longText() if os.name == 'posix': f.write(str.replace('\n','\

浏览 6提问于2016-12-05得票数 1

回答已采纳

4回答

在python中处理多行字符串末尾的\n字符

python、regex

我一直在使用python和regex来清理一个文本文件。我一直在使用以下方法，它通常是有效的：所讨论的字符串是一个完整的文本文件，其中包含许多嵌入的换行符一些已编译的正则表达式使用re.DOTALL选项覆盖多个行。如果编

浏览 6提问于2011-06-14得票数 2

回答已采纳

1回答

有没有办法逐行读取pdf文件？

python、pdf、pdf-conversion

我有一个超过100页的pdf文件。有文本的方框和列。当我使用PyPdf2和tika解析器提取文本时，我得到了一个乱序的数据字符串。它在许多情况下是按列排序的，在其他情况下会跳过文档。是否可以从顶部开始读取pdf文件，从左到右直到底部？我想要阅读列和框中的文本，但我希望文本行按从左到右的顺序显示

浏览 22提问于2019-06-14得票数 0

1回答

Python使用新行上的字符串拆分字符串

python、regex、split

我正在尝试使用新行上的一个单词来拆分字符串。例如，每当我遇到单词" split“时，我就想将字符串拆分成几个部分。对于我的用例，单词"SPLIT“应该只在新行上单独出现：我试过str.split("\nSPLIT")，但在word之后运行时遇到了问题。“ 感谢你的帮助。

浏览 29提问于2021-04-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将regex与由python中的Tika读取的pdf中的文本字符串一起使用-尝试查找以\n\n结尾的行

相关·内容

将regex与由python中的Tika读取的pdf中的文本字符串一起使用-尝试查找以\n\n结尾的行

如何在Python2.7中使用Tika package(https://github.com/chrismattmann/tika-python)来解析PDF文件？

BufferedReader问题-未正确响应

用不正确的结构OCR从PDF中提取数据

当一行数据被分成两个单独的页面时，如何正确地从pdf中提取表格数据？

Notepad++ RegEx删除以带换行符的\pard.....ending开头的行

删除数据帧中的空行并检查相似性

Python中的Regex :在两个以大写字母开头的单词之间分割空格字符

PDF到文本问题- Python阿拉伯字符在某些位置被翻转

python，当使用writestr时，有一个文本换行符问题

Apache检测JSON / PDF特定的mime类型

为什么我的Python正则表达式与Windows中的换行符\r\n不匹配？

如何使用Regex实现这一结果？

提取二线的正则表达式

为什么我的Python正则表达式锚点不能在多行字符串上正确工作？

C试图在标头中找到\r\n\r\n

'\n‘== 'posix’，'\r\n‘== 'nt’(python)是对的吗？

在python中处理多行字符串末尾的\n字符

有没有办法逐行读取pdf文件？

Python使用新行上的字符串拆分字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐