使用Python从PDF文件中按顺序提取图像

文章/答案/技术大牛

发布

1回答

、、、、

我想通过Python实现PDF自动化，当我的以下代码执行时，它从整个PDF中获取任何随机图像，它不遵循给定PDF中的图像页面顺序。请找到我附加的PDF图像从下面的代码执行。 ? doc = fitz.open("cs2103g0052_019_549291_ca_cs_sb_sb_fy22q2wk7_oa_showcase-premium-fr_XXXxXXX_jsos.pdf

浏览 44提问于2021-06-23得票数 0

1回答

如何利用安卓上的iText从PDF文件中提取图像和文本

、、、

我已经完成了从PDF中提取文本，但现在我想提取图像。第一个问题是图像在每页文本之间。我想知道的是如何按顺序提取图像，即使文件是每页2列，以及如何确定图像放在文本中的位置。这是一些我试过的密码。的内容并检查图像，然后将这些图像呈现到图像文件(.png、.jpg等)中。我在这里

浏览 9提问于2012-11-25得票数 6

1回答

从pdf文件中读取图像

、、、、

我有一个要求，客户将上传一个pdf文件，其中包含图像/s。我必须读取那个pdf文件，从它们中提取图像，然后将图像保存到db和硬盘中。但我不知道如何使用Python/Django代码从pdf文件中提取图像。是否有从pdf文件</em

浏览 2提问于2013-08-09得票数 0

回答已采纳

1回答

浏览pdf文件以找到特定页面，并从python图像中提取表格数据。

、、、、

我遇到了一个任务，它要求我从pdf文件中的图像中提取表格数据，通过python代码将格式整齐的数据转换成数据。需要处理的文件有几个，所有文件中的相关页可能有不同的页码，因此解决这个问题的步骤顺序(我的假设)是：从图像中提取数据，格式化并转换为

浏览 3提问于2021-12-15得票数 -1

1回答

如何从pdf文件的图像中提取文本？

我在python应用程序中使用tika从文档中提取文本。一切正常，但它不是从pdf文件中提取的图像。Tika可以从pdf和图像中提取文本，但不能从包含图像的pdf中提取文本。我有点困惑。是否需要将PDF文件转换为图像？

浏览 3提问于2018-10-11得票数 1

1回答

如何检测文档中的图像

、

如何检测文档中的图像，如doc、xls、ppt或pdf？但不太确定它将如何检测图像。谢谢

浏览 0提问于2012-08-13得票数 3

回答已采纳

1回答

PDFClown图像提取倒置图像

、

我正在与PDFClown合作，我试图从一个pdf文件中提取图像。我使用在上可以找到的源代码提供的示例代码。问题是图像是负的，水平翻转。

浏览 6提问于2015-05-29得票数 0

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

使用python显示docx文件的内容

、

我正在读取docx文件并显示其数据。我需要显示数据，因为它是在docx文件在这里，我的表中</em

浏览 2提问于2019-09-23得票数 1

2回答

导出整个pelican站点为pdf？

、

有没有什么简单的方法可以将整个Pelican站点导出为pdf格式，并按类别排序？我试着把一个sitemap html拖到calibre中，但是导航也很糟糕，我不想要。例如，使用python可以很容易地从输出文件夹中的html页面中提取内容，但是页面不会按类别排序。我可以使用pandoc将.md文件转换为pdf，但我有一个插件从markdown创建的plantur

浏览 0提问于2015-01-13得票数 1

1回答

如何从pdf文档中提取矢量图形？

我想做一个工具，在人类的帮助下从pdf文件中提取矢量图形。例如，一个人使用工具打开pdf文档，然后选择他想要保存为矢量图形的对象。有没有什么工具已经在做这件事，或者有什么库可以用来编写我自己的工具。库的语言可以是(按递减优先顺序) c#、VB.net、python或c/c++。

浏览 1提问于2009-03-09得票数 4

1回答

如何在纯Python中从PDF中提取图像？

、、、、

我正在开发一个服务，其中我现在需要从PDF文件中提取图像。在Linux命令行中，我可以使用之类的提取图像因为我使用的是Python Flask框架，并且我想在Heroku上运行我的服务，所以我想使用纯Python (或者可以在Flask系统中运行在Heroku

浏览 4提问于2014-11-28得票数 4

1回答

从PDF中按顺序提取注释/注释- Python

、、

我正在尝试使用Python从PDF中提取注释。下面是我测试过的两段代码：import PyPDF2 input1 = PyPDF2.PdfFileReader(open(src, "rb"], ignore_index=True) # there are no annotations on this page p

浏览 10提问于2021-07-06得票数 2

1回答

在Python* / Torch多处理下使用的EasyOCR默认为CPU*

、、、、

我正在使用EasyOCR从图像中提取文本。它使用PyTorch。在不同的文件夹中有多个图像，读取这些文件夹的顺序并不重要。当按顺序运行时，EasyOCR默认使用图形处理器，并且比在中央处理器上运行时更快。但是当调用Python / Torch Multiprocessing，以便并行读取多个文件夹时，EasyOCR默认使用</e

浏览 2提问于2020-11-23得票数 0

2回答

如何使用python向任何给定文件添加数字签名

、、

如何使用python向任何给定的文件添加数字签名并进行验证。即输入一个文件，输出一个数字签名的文件，并给出一个带有密钥的数字签名文件来验证数字签名。如何使用python做到这一点？

浏览 8提问于2017-03-03得票数 4

1回答

将基于图像的pdf转换为python中的图像文件(png/jpg)

、、、

我希望将基于图像的PDF隐藏到Python中的image (..png/..jpg)文件中，这样我就可以进一步使用这个图像从它中提取表格数据。我不想从命令行运行代码。我目前正在使用Python3.7.1版本和Pycharm。我尝试了在堆栈溢出提供的代码，但没有工作，它运行，但无法提取图像形式基于图像的PDF<

浏览 2提问于2020-04-24得票数 1

回答已采纳

1回答

如何从pdf图像文件中提取带有坐标的数据？

、、

如何从PDF图像文件中提取文本与坐标，使用python及其外部库。from wand.image import Image as wipdfImg = pdf.convert('jpg') crop_img = pdfImg.crop((

浏览 63提问于2019-07-03得票数 0

回答已采纳

2回答

用Python提取PDF文件的文本和表

、、、、

我正在寻找一个从PDF文件中提取文本和表格的解决方案。虽然有些包适合提取文本，但它们不足以提取表。文件，pypdf2工作正常，但是它失败了，并且没有为一些pdfs (来自的pdf文件)保留单词之间的空格：第二，如果页面中存在表，我如何提取表？pdfplumber可以使用extract_text()和extract_table()注释同时提取

浏览 8提问于2021-09-21得票数 1

2回答

如何使用Python将文件隐藏在图像中？

、、、、

我知道可以批量使用带有/B开关的'copy‘命令，即：我的问题是:在Python中可以做到这一点吗?

浏览 0提问于2013-06-24得票数 4

回答已采纳

1回答

从PDF中提取的图像是水平分段的。

、、、

我必须从包含技术图纸的公司PDF文件中提取图像。PDF文件符合PDF/A格式。我想出的一个解决方案是，在每个图像中创建文件夹，然后将所有片段放到相应的文件夹中，遍历文件夹并合并内容。这需要我做一些分类工作，但我认为这是可行的。因此，文件</

浏览 3提问于2012-11-08得票数 6

点击加载更多