在PDFminer中实现try和except时遇到问题

文章/答案/技术大牛

发布

1回答

、、、

它似乎可以很好地处理少数PDF文件，但是，每当它遇到有问题的PDF时，脚本就会中断。我在函数中实现了try和except块来避免这些问题，但它似乎不起作用，因为脚本只是持续运行。我对所有这些都是新手，尤其是使用try和except块。如何修复我的脚本使用try和except块，以便脚本将只处理好的PDF，忽略所有不好的，而不破坏脚本？) def pdfs(f

浏览 6提问于2019-05-01得票数 0

1回答

实现类错误并返回0文本

、

首先，我尝试实现一个类，它返回一个类似于<主的代码。对象时，当我试图实现类时。我参考了其他意见，但不太明白。我的第二个问题是，当我运行下面的代码时，它声明在我之前保存的pdf中没有项目。import osfrom pdfminer3.pdfpage import PDFPage frompdfminer3.pdf

浏览 6提问于2020-09-21得票数 2

回答已采纳

2回答

读取由Adobe LiveCycle Designer创建的PDF中的表单域

、

如何从this PDF file中获取字段？它是由Adobe LiveCycle Designer创建的动态PDF。如果您在web浏览器中打开该链接，您可能会看到一个以“请稍候...”开头的页面。所以，当通过PyPDF2阅读时，你会得到一个空的字典，因为它会将文件呈现为一个页面，就像你通过web浏览器看到的那样。parser content = raw['content'] print(content) 所以，基本上，我可以<em

浏览 63提问于2019-02-21得票数 1

回答已采纳

2回答

要在Python中实现的Try和Except函数

、

它从位于我的桌面上的csv文件中获取的URL。下面的代码当前提取组ID没有任何问题，除非URL有效。但是我想把这段代码运行到最后，即使csv文件中有无效的url，它也应该在我位于桌面的输出xls文件中显示“无效的url”。

浏览 1提问于2020-05-20得票数 0

2回答

如何用Python编写`is_pdf(Path_to_file)函数？

、、

因此，我需要的是一个is_pdf(path_to_file)函数，如果文件是有效的PDF和False，则返回True。这里有一个使用的解决方案，但在我看来似乎太过分了。from pdfminer.high_level import extract_text """Return True if path_to_fileis a readable PDF&q

浏览 1提问于2020-10-08得票数 4

1回答

在Python3Pdfinterp (Pdfminer)中解决以前的CStringIO和字符串IO函数

、、

我正在使用pdfminer工具将pdf转换为.csv (文本)，而工具pdfinterp.py中的一个子命令仍然使用CStringIO和StringIO进行字符串到字符串的转换-try:except ImportError:我使用的是Python3，所以我知道需要更改为io和io.StringIO。应该如何在pdfinter

浏览 8提问于2016-09-14得票数 0

2回答

Python:用UTF-8以二进制模式打开PDF

、、

pdf_file)text = pageObj.extract(pdfObj) 它的工作很好，除了PDF的内容是德语和特殊字符我无法更改二进制代码的编码，但如果不使用二进制代码，则会出现错误文件"/usr/local/lib/python3.8/site-packages/PyPDF4/pdf.py"，第1754行，在readstream.seek(-1，2) io.Unsupp

浏览 11提问于2020-10-21得票数 1

回答已采纳

1回答

确保循环在每个文件中运行，即使引发错误时也是如此。

、、、、

我正在一个文件夹中迭代一堆pdf，解析它们的内容并将其附加到列表中。它工作在pdf-文件的子集上。我不想手动删除一些pdf，运行代码，然后添加一些再次运行它，直到我找到故障的pdfs。问题：我需要做什么才能使代码继续运行，即使有一个pdf不能打开或没有内容(假设这就是为什么在代码的特定点抛出错误)from pdfminer.pdfpage import, LTTextBoxHorizontal from pdfminer.pdfpage

浏览 13提问于2021-09-02得票数 0

回答已采纳

3回答

为什么在PDFMiner中ID 160不被识别为Unicode？

、、、、

对于.pdf文件中的每个单词，PDFMiner都会检查它是否是Unicode (以及其他许多事情)。为了方便起见，我在这里报告代码： try:我不明白为什么这个字符不被识别为Unicode，而在同一个文件中的所有其他字符都是Unicode。如果在相同的环境中，我在控制台中运行isinstance(u'160', unicode)

浏览 0提问于2015-12-05得票数 1

回答已采纳

1回答

从文件夹中的多个PDF文件中提取电子邮件地址、姓名和姓氏

、、、

我试图从一个文件夹中的所有PDF文件中提取以下信息，PDF文件是简历:电子邮件地址，名字，工作项目的姓氏。from pdfminer3.converter import TextConverterfrom pdfminer3.pdfpageoutput.getvalue() output.close() match = re.search(r'[\w\.-]+@[a-z0-9\.-]+',

浏览 6提问于2022-01-09得票数 0

回答已采纳

2回答

不支持的媒体类型，后端，请指导我

、、

他们中的一个，是我正在工作的朋友。

浏览 0提问于2017-09-11得票数 1

1回答

用于创建文件然后将文件从一个目录保存到另一个目录的python glob或listdir

、、、

pdfs当前在一个文件夹中，然后在txt转换后保存到另一个文件夹中。我有许多这样的文档，我更喜欢在子文件夹上迭代，并保存到txt文件夹中具有相同名称的子文件夹中，但在添加该层时遇到问题。我知道我可以使用glob来递归迭代，并为文件列表等做这件事，但不清楚如何将文件保存到新文件夹中。这并不是完全必要的，但会更加方便和高效。有什么好方法可以做到这一点吗？import osfrom

浏览 17提问于2020-03-26得票数 0

回答已采纳

5回答

如何使用Python中的PDFMiner获取PDF文件的总页数？

、

在PyPDF 2中，pdfreader.getNumPages()给出了一个PDF文件的总页数。如何使用获得这个

浏览 6提问于2017-08-23得票数 5

回答已采纳

3回答

在使用regex时，在python代码中过度使用try和except

我想我在我的代码中已经不再使用try和except了。它几乎无处不在，在那里我有正则表达式匹配。如果它没有找到正则表达式，就会抛出一个异常，所以我使用try和except来捕获它，以防止代码崩溃。try: match = re.search(r'John', Output, re.M|re.I) #use try</

浏览 28提问于2020-02-16得票数 0

回答已采纳

1回答

使用Python仅从PDF中提取特定文本

、、、

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。

浏览 8提问于2020-10-04得票数 1

回答已采纳

1回答

使用Tweepy将屏幕名称列表转换为用户ID

、、、、

我正在使用Python和Tweepy编写一个基本程序，以获取Twitter屏幕名称的列表并下拉相应的用户ID。我已经实现了速率限制器，程序也正常工作，但当它遇到我的异常处理时，事情就会崩溃。它告诉我，X中的屏幕名称在等待15分钟后不存在。我需要异常处理，因为Tweepy在运行时经常遇到问题。我在这里做错了什么？f = open('output2.txt', 'w') for x in HandleList1: <

浏览 0提问于2017-11-07得票数 1

2回答

解析pdf文件时使用pdfminer.six时出现问题

、、

我正在尝试使用pdfminer.six从pdf中提取文本，我遵循了下面提到的代码import io output = io.StringIO() pdfminer.high_level.extract

浏览 0提问于2018-02-09得票数 2

4回答

try和exception可移植性

、、

你好，再一次打扰一下“gcc”中的__try和__except是有效句子吗？在*nux环境中，__try</

浏览 5提问于2012-09-20得票数 2

3回答

pdfminer上的警告

、、、

我已经在堆栈溢出中找到并(略微)修改了这个脚本，以便它能够在python 3.3上工作：from pdfminer.layout import LAParams retstr.close() re

浏览 1提问于2015-04-21得票数 6

回答已采纳

1回答

优化pdfminer

、、、、

我试图在生产上下文中使用pdfminer.six从pdf中提取文本。目前，对于我的基准44页文档，它大约需要18秒。我想尽量减少这方面的开支。from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParams from pdfminer.pdfpage import PDFP

浏览 0提问于2017-08-03得票数 4

点击加载更多