使用PyMuPDF从PDF中提取完整的超链接字符串

、、、、

我试图提取超链接在每一页与他们的锚文本从pdf使用PymuPdf库。我能够提取超链接与他们的页码，但不能提取锚文本/文字为每个超链接。import fitz # PyMuPDF for page_no in range(1, len

浏览 18提问于2022-10-03得票数 1

1回答

、、

我正试着从PDF中提取每一个链接。我可以使用下面的代码获得每个超链接：folder_data = [os.path.join(dp, f) for dp, dn, filenames inos.walk(folder) for f in filenames if os.path.splitext(f)[1] == '.pdf'] data = [loc.replace("\\",

浏览 25提问于2020-03-12得票数 1

1回答

Gtts库错误。我不知道为什么会发生这个错误，也不知道如何修复它们

、

我试图将pdf转换成音频文件，但是当我运行我的代码时，我会从gtts自由主义中得到一些错误。如果有更好的自由使用，听起来不像一个机器人，请让我知道错误是，我的代码是#Importing Google Text to Speech libraryimport PyPDF2 <

浏览 10提问于2022-12-04得票数 0

4回答

PyMuPDF提取纯文本的几个问题

、、

我想使用阅读PDF文件。我所需要的是纯文本(不需要提取颜色，字体，表格等信息)。我试过以下几种方法from fitz import TextPagedoc = TextPage然后，我从PyMuPDF的一位作者那里找到了一个PyMuPDF，它具有按从文件中读取的</e

浏览 3提问于2018-06-04得票数 4

1回答

PyMuPDF中的段落提取

、、

我正在使用PyMuPDF从PDF中提取块单元的文本。在许多情况下，“块”似乎只是缺省为换行符分隔的单位，而不是逻辑段落。import fitzblocks = [x[4] for x in doc[0].getText("blocks")] print(blocks) (可以在here上找到example.pdf) 如果不是因为M

浏览 64提问于2020-11-06得票数 0

1回答

python从列中打开PDF* urls并将文本数据加载到新列中*

、、、

URL栏包含web上PDF的链接。我想打开每个pdf并将pdf的内容复制到新的列PDF data中。我知道一些PDF文件可能会很长，在某些情况下，该列中的文本数量可能会很大。例如，在第一行中，我希望将URL '‘的内容复制到列PDF data中。在第三行

浏览 12提问于2018-02-13得票数 0

9回答

如何解析“没有模块名为‘前端’”错误消息？

、、、

我安装了PymuPDF/fitz，因为我试图从PDF文件中提取图像。但是，在运行下面的代码时，我看到的是No module named 'frontend'。doc = fitz.open(pdf_path) for img in doc.getPageImageList% (i, xref)) pix1

浏览 7提问于2019-06-05得票数 47

回答已采纳

2回答

如何使用pymupdf从pdf文件中提取表

、

我的工作要求我使用pymupdf从pdf文件中提取表格并导出为csv格式。

浏览 0提问于2019-05-16得票数 0

3回答

开放源码命令行工具，以删除PDF中的超链接？

、

是否有任何开放源码工具可以删除Ubuntu中的PDF链接。我使用PDFtk，我无法在其中找到任何内部链接。由于内部链接，使用PyPdf将PDF文件合并为一个文件的python脚本失败。

浏览 0提问于2012-02-21得票数 4

1回答

如何使用python找到并删除pdf中的水印？

、、

我目前正在使用python删除PDF文件中的水印。例如，我有一个这样的文件：页面中央的绿色形状是水印。我认为它不是以文本形式存储在PDF中的，因为我通过使用边缘浏览器(它可以读取PDF文件)搜索无法找到该文本。此外，我无法通过图像找到水印。我使用PyMuPDF从PDF中提取所有图像，水印(应该出现在每一

浏览 8提问于2022-08-02得票数 -1

回答已采纳

1回答

使用Python，如何从输出txt文件中提取PDF* +颜色字符串和数字中的文本和图像*

、、、、

使用Python，我想要执行1，我使用了以下代

浏览 8提问于2022-07-27得票数 1

1回答

如何在PyMuPDF中获取文本的背景色

、、

我尝试查看是否可以使用文本的背景和前景颜色来识别PDF中表格中可能的表头。使用PyMuPDF文本提取，我能够获得前景颜色。想知道有没有办法也能得到背景颜色。我正在使用pymupdf 1.16.2和python 3.7。我查看了文档，但发现只有一个颜色字段，它与文本颜色而不是背景颜色相关联如果有人知道如何使用pyMuPDF获得背景颜色，或者可能是其他软件包，请让我知道

浏览 5提问于2019-09-26得票数 4

1回答

从pdf文件中提取所有图像和文本

、、、

我需要从pdf创建json来呈现所有图像和文本的HTML格式的pdf内容。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像，但不能提取图形图像和背景阴影图像。尝试的模块-Mammoth(Node) -PDFBox(Java)

浏览 5提问于2017-05-08得票数 0

2回答

我试着一个一个地读pdf，然后把它转换成数据格式

、、、、

我使用Pymupdf模块中的“fitz”来提取数据，然后用熊猫将提取出来的数据转换成数据。#从文件夹读取多个pdfs的代码：# returns all file paths that has .pdf as extension in the]for pdf in pdf_f

浏览 5提问于2022-01-25得票数 0

1回答

我们是否可以扫描多个PDS文件中的某些文本，并计算所有找到的匹配项？

、、

我正在尝试拼凑一些代码来扫描多个PDF文件，这些文件都是简历，找到与某些搜索词匹配的单词，并计算所有匹配的单词。因此，如果一份简历列出了5倍的“Python”，我想要捕获它；如果它列出了4倍的“Excel”，我就想捕获它。我要把所有东西都列在数据框里。这是我正在使用的代码。我认为这很接近，但这里肯定有不对劲的地方。我知道文本文件可以csv文件是非常干净的。也许PDF文件很难处理。无论如何，如果这是可行的</e

浏览 1提问于2020-07-17得票数 1

1回答

如何使用OpenAI最大上下文长度为2049标记？

、

我想将各种PDF格式的文本发送到。特别是或 API。问题:当令牌计数超过允许的2049时，如何最好地准备提示符？

浏览 6提问于2021-11-22得票数 3

1回答

PDF读取，返回空行

、、

我有以下功能可阅读PDF：def Readingpdf(pdfname): comp文件(如书籍)上运行良好--我可以很容易地提取文本，但当我在“会议记录”上使用它时，我只得到了如下空行： ' \n\n\n\n\n \n\n\n \n\n \n\n \n\n\n\n \n \n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n\n \n \n \n

浏览 5提问于2021-02-17得票数 0

回答已采纳

2回答

使用python从PDF中获取目录

、、、、

我正在尝试从PDF中获取目录。为此，我使用了PyMuPDF。但它只在ToC包含书签的情况下才提取出来。否则，它只会产生一个空列表。

浏览 165提问于2020-11-05得票数 0

2回答

PyPDF2 :提取目录/大纲及其页码

、、、

我正在尝试提取目录/大纲从PDF和他们的页码使用Python (PyPDF2)，我知道reader.outlines，但它没有返回正确的页码。示例：https://www.annualreports.com/HostedData/AnnualReportArchive/l/NASDAQ_LOGM_2018.pdf reader.outlines的输出是： [{'/

浏览 90提问于2021-07-16得票数 1

回答已采纳

1回答

迭代文件(PDF)以运行函数

、、、、

我试图从一个目录(path)中读取PDF文件，从每个PDF中提取单独的图像，并将其写入同一个目录。但是，我无法对每个文件执行以下功能，因为我的脚本只解析目录中的最后一个文件。我正在使用的代码如下所示：import PyPDF2import gl

浏览 5提问于2020-06-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用python从pdf中从每个超链接中提取锚文本/单词？