使用pdfminer逐页阅读基于图像的pdf_使用PDF框阅读PDF -带页数的说明_使用chrome内置TypeScript阅读器的PDF - 腾讯云开发者社区

image-processing、python-tesseract、pypdf2、pdfminer、pypdf

我正在运行一个脚本，它使用pdfminer来拆分页面并逐页分析文档。我的脚本一页一页地写着： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter text = retstr.getvalue() 然而，有时我得到的pdf是基于图像

浏览 25提问于2021-05-01得票数 1

回答已采纳

2回答

使用pdfminer将pdf分隔为多个页面

python、pdfminer

我正在尝试逐页提取pdf，并将结果存储在字典中，如下所示：frompdfminer.converter import TextConverterfrom pdfminer.pdfpage importPDFPage from cStringIO import StringI

浏览 2提问于2016-07-04得票数 0

1回答

我想按内容读取PDF文件内容。

c#、.net、vb.net、file、pdf

我想要阅读一个PDF文件，其中有很多文本，图像，表格。我想从上到下逐页、逐页阅读整个文件内容。是否有任何用于读取PDF的开放源代码或.net 2.0或更高版本的编码参考嗨，Konamiman，我使用iTextSharp，但

浏览 4提问于2009-11-17得票数 1

2回答

PDFminer给出了奇怪的字母

python、pdf、encoding

我使用python2.7和PDFminer从pdf中提取文本。我注意到有时候PDFminer会给我奇怪的字母的单词，但是pdf格式的阅读器不会。另外，对于一些pdf文档来说，PDFminer和其他pdf格式的阅读器返回的结果是一样的(奇怪的)，但是有些文档的pdf</

浏览 2提问于2012-10-01得票数 2

回答已采纳

2回答

如何在iphone中使用水平滑动逐页显示PDF？

iphone、pdf、uitouch、horizontal-scrolling、cgpdfdocument

我想创建一个逐页PDF阅读器。PDF存储在本地。下一个和前一个PDF页面应根据水平滑动进行加载。如何显示具有水平滑动和缩放功能的单个页面？解决这类问题的最佳方法是什么？有没有关于这方面的教程？编辑:我已经使用CGPDF API逐页显示PDF。我正在使用<e

浏览 1提问于2010-09-20得票数 13

2回答

PDF转Python中的文本在图像文件中返回空结果

python、pdf、pypdf2、pdfminer、pdf-extraction

我有这个pdf文件..。基于图像的低分辨率pdf文件。我正在尝试提取其中的数据，但我尝试过的所有选项似乎都不起作用。选项1-使用pdfminer from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfmi

浏览 42提问于2021-02-20得票数 0

回答已采纳

2回答

通过python计算pdf文档中的图像

python、pdfminer、pypdf2

有没有办法通过python计算pdf文档中的图像数量(JPEG、PNG、JPG)？

浏览 7提问于2017-11-02得票数 0

4回答

逐页阅读pdf

python、python-2.7、pdf、pypdf、pdfminer

我寻找我的问题，但在两个可用的问题中没有得到我的答案。我用过pyPdf。我使用了以下代码：extract = "" num_of_pages我也尝试过使用<em

浏览 5提问于2016-01-04得票数 2

回答已采纳

2回答

Pdf矿工如何提取图像

python、pdf、pdfminer

我正在尝试使用pdfminer.six从PDF文件中提取图像import osfrom

浏览 4提问于2021-08-23得票数 0

回答已采纳

1回答

用pdfminer水平读取pdf文件

python、pdf、extract、pdfminer

我想提取一个与pdfminer (版本20140328)的pdf。这是提取pdf的代码：from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterstring=pdf_to_string(file_obje

浏览 3提问于2014-10-29得票数 3

回答已采纳

1回答

pdfminer.six -使用`extract_pages` API提取图形/图像

python、pdfminer

Python库pdfminer.six允许您使用command line tool从pdf中提取图像，但这似乎不是很灵活。它还允许您使用extract_pages API迭代文档中的元素，并检查项目是否为pdfminer.layout.LTFigure类型。figures = [] for element in page_layout: i

浏览 92提问于2021-08-31得票数 0

1回答

解压缩嵌入的PDF* - PDFInterpreterError:未知运算符：'\x00‘*

python、pdf、scrapy、pdfminer

使用Scrapy，我想下载一个pdf到读取二进制文件到内存中，并提取内容。DocumentNo=12502的response.body时，我看到一个以以下内容开头的字符串： '%PDF-1.4\n%\xe2\xe3\xcf\xd3\r\n1 0 obj\n<</Type /PageDCTDecode ]\n/Length 6 0 R>>\r\nstream\r\nx\x9c\xed\x9dYl\x1bE\x18\x80g}\xa4I\n\x8

浏览 3提问于2017-11-23得票数 0

1回答

pdfminer将pdf文件转换成一个字符串块，字词之间没有空格。

python-3.x、pdfminer

我使用了以下代码，主要是从DuckPuncher对这个帖子的答复中获取的代码将pdfs转换为文本文件： rsrcmgr = PDFResourceManagerfp.close() str = retstr.getvalue() return str pdfs使用以下代码下载并存储在我的本地目录中例如，在从下载了下面的pd

浏览 0提问于2018-03-23得票数 8

回答已采纳

1回答

从MediaBox - PDF中提取文本

python、pdf、text、text-extraction

我想从PDF中提取一个基于我正在创建的CropBox的特定文本。numberpages = pdf.getNumPages() #get the number of pages 在第二部分中，我将创建我想要使用的CropBox (以及基于文档的

浏览 8提问于2022-07-25得票数 0

2回答

当我在html object tag中加载整个文件时，请阅读pdf* split*

javascript、html

如何在加载所有文件时逐页查看html中的pdf，您能帮助我吗？如何在加载整个文件的同时逐页阅读和查看PDF文件，我找到了关于这方面的文档

浏览 3提问于2014-02-07得票数 0

2回答

错误:无法从'pdfminer.pdfparser‘导入名称'PDFDocument’

python-3.x、pdfminer

我需要从pdf文件中提取文本，并成功地使用了pdfminer.six，提取文本段落和表格。软件包pdfmin.Six-20181108 我使用的代码是基于这个的：How to read pdf file using pdfminer3k?然后，基于下面的网页，我认为值得尝试拆分PDFparser，PDFDocument： from pdfminer.pdfparser import PDFParse

浏览 224提问于2019-05-07得票数 6

回答已采纳

3回答

用于读取PDF文件的Python

python、pdf

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。有没有人能推荐一个这样的图书馆呢？

浏览 2提问于2011-05-10得票数 11

回答已采纳

1回答

PDF到Python中的Word文档

python-2.7、pdf、ms-word

我已经阅读了关于这个的其他堆栈溢出问题，但它不能回答我的问题，所以请投下赞成票。它的2.7版。我的代码是错的吗？我这样做是不是错了？是不是有些PDF就是不能与PDFMiner兼容？除了使用PyPDF2或PDFMiner之外，你还知道有什么其他方法可以实现我将<e

浏览 4提问于2015-10-22得票数 1

1回答

如何在从PDF中提取文本时删除标题？

python、pdf、text-extraction

我正在尝试对一组pdf文件运行LDA，以访问这些文件中的主要主题。我可以使用pdfminer从pdf中提取数据。问题2:在我使用run LDA模型之前，我想从文本中删除所有换行符和标点符号。我用来提取数据的代码如下： from pdfminer

浏览 15提问于2019-11-27得票数 2

2回答

如何使用pdfminer.six

python-3.x、pdf、text-extraction

我正在尝试使用Python3.x中的pdfminer从pdf中提取文本。我使用以下命令安装了它当我尝试使用下面的命令提取文本时，我得到了一个错误错误: pdf2txt.py:找不到命令我已经阅读了官方文档，它们显示了我上面遵循的相同步骤，但仍然不起作用。

浏览 102提问于2018-02-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云