腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
PDFminer
中
实现
try
和
except
时
遇到问题
、
、
、
它似乎可以很好地处理少数PDF文件,但是,每当它遇到有问题的PDF
时
,脚本就会中断。 我
在
函数
中
实现
了
try
和
except
块来避免这些问题,但它似乎不起作用,因为脚本只是持续运行。我对所有这些都是新手,尤其是使用
try
和
except
块。如何修复我的脚本使用
try
和
except
块,以便脚本将只处理好的PDF,忽略所有不好的,而不破坏脚本?) def pdfs(f
浏览 6
提问于2019-05-01
得票数 0
1
回答
实现
类错误并返回0文本
、
首先,我尝试
实现
一个类,它返回一个类似于<主的代码。对象
时
,当我试图
实现
类
时
。我参考了其他意见,但不太明白。我的第二个问题是,当我运行下面的代码
时
,它声明
在
我之前保存的pdf
中
没有项目。import osfrom
pdfminer
3.pdfpage import PDFPage from
pdfminer
3.pdf
浏览 6
提问于2020-09-21
得票数 2
回答已采纳
2
回答
读取由Adobe LiveCycle Designer创建的PDF
中
的表单域
、
如何从this PDF file
中
获取字段?它是由Adobe LiveCycle Designer创建的动态PDF。如果您在web浏览器
中
打开该链接,您可能会看到一个以“请稍候...”开头的页面。所以,当通过PyPDF2阅读
时
,你会得到一个空的字典,因为它会将文件呈现为一个页面,就像你通过web浏览器看到的那样。parser content = raw['content'] print(content) 所以,基本上,我可以<em
浏览 63
提问于2019-02-21
得票数 1
回答已采纳
2
回答
要在Python
中
实现
的
Try
和
Except
函数
、
它从位于我的桌面上的csv文件
中
获取的URL。 下面的代码当前提取组ID没有任何问题,除非URL有效。但是我想把这段代码运行到最后,即使csv文件中有无效的url,它也应该在我位于桌面的输出xls文件
中
显示“无效的url”。
浏览 1
提问于2020-05-20
得票数 0
2
回答
如何用Python编写`is_pdf(Path_to_file)函数?
、
、
因此,我需要的是一个is_pdf(path_to_file)函数,如果文件是有效的PDF
和
False,则返回True。这里有一个使用的解决方案,但在我看来似乎太过分了。from
pdfminer
.high_level import extract_text """Return True if path_to_fileis a readable PDF&q
浏览 1
提问于2020-10-08
得票数 4
1
回答
在
Python3Pdfinterp (
Pdfminer
)
中
解决以前的CStringIO
和
字符串IO函数
、
、
我正在使用
pdfminer
工具将pdf转换为.csv (文本),而工具pdfinterp.py
中
的一个子命令仍然使用CStringIO
和
StringIO进行字符串到字符串的转换-
try
:
except
ImportError:我使用的是Python3,所以我知道需要更改为io
和
io.StringIO。应该如何在pdfinter
浏览 8
提问于2016-09-14
得票数 0
2
回答
Python:用UTF-8以二进制模式打开PDF
、
、
pdf_file)text = pageObj.extract(pdfObj) 它的工作很好,除了PDF的内容是德语
和
特殊字符我无法更改二进制代码的编码,但如果不使用二进制代码,则会出现错误 文件"/usr/local/lib/python3.8/site-packages/PyPDF4/pdf.py",第1754行,
在
readstream.seek(-1,2) io.Unsupp
浏览 11
提问于2020-10-21
得票数 1
回答已采纳
1
回答
确保循环
在
每个文件
中
运行,即使引发错误时也是如此。
、
、
、
、
我正在一个文件夹
中
迭代一堆pdf,解析它们的内容并将其附加到列表
中
。它工作
在
pdf-文件的子集上。我不想手动删除一些pdf,运行代码,然后添加一些再次运行它,直到我找到故障的pdfs。问题:我需要做什么才能使代码继续运行,即使有一个pdf不能打开或没有内容(假设这就是为什么
在
代码的特定点抛出错误)from
pdfminer
.pdfpage import, LTTextBoxHorizontal from
pdfminer
.pdfpage
浏览 13
提问于2021-09-02
得票数 0
回答已采纳
3
回答
为什么
在
PDFMiner
中
ID 160不被识别为Unicode?
、
、
、
、
对于.pdf文件
中
的每个单词,
PDFMiner
都会检查它是否是Unicode (以及其他许多事情)。为了方便起见,我在这里报告代码:
try
:我不明白为什么这个字符不被识别为Unicode,而在同一个文件
中
的所有其他字符都是Unicode。如果在相同的环境
中
,我
在
控制台中运行isinstance(u'160', unicode)
浏览 0
提问于2015-12-05
得票数 1
回答已采纳
1
回答
从文件夹
中
的多个PDF文件中提取电子邮件地址、姓名
和
姓氏
、
、
、
我试图从一个文件夹
中
的所有PDF文件中提取以下信息,PDF文件是简历:电子邮件地址,名字,工作项目的姓氏。from
pdfminer
3.converter import TextConverterfrom
pdfminer
3.pdfpageoutput.getvalue() output.close() match = re.search(r'[\w\.-]+@[a-z0-9\.-]+',
浏览 6
提问于2022-01-09
得票数 0
回答已采纳
2
回答
不支持的媒体类型,后端,请指导我
、
、
他们
中
的一个,是我正在工作的朋友。
浏览 0
提问于2017-09-11
得票数 1
1
回答
用于创建文件然后将文件从一个目录保存到另一个目录的python glob或listdir
、
、
、
pdfs当前
在
一个文件夹
中
,然后
在
txt转换后保存到另一个文件夹
中
。我有许多这样的文档,我更喜欢
在
子文件夹上迭代,并保存到txt文件夹
中
具有相同名称的子文件夹
中
,但在添加该层
时
遇到问题
。我知道我可以使用glob来递归迭代,并为文件列表等做这件事,但不清楚如何将文件保存到新文件夹
中
。这并不是完全必要的,但会更加方便
和
高效。 有什么好方法可以做到这一点吗?import osfrom
浏览 17
提问于2020-03-26
得票数 0
回答已采纳
5
回答
如何使用Python
中
的
PDFMiner
获取PDF文件的总页数?
、
在
PyPDF 2
中
,pdfreader.getNumPages()给出了一个PDF文件的总页数。 如何使用获得这个
浏览 6
提问于2017-08-23
得票数 5
回答已采纳
3
回答
在
使用regex
时
,
在
python代码
中
过度使用
try
和
except
我想我
在
我的代码
中
已经不再使用
try
和
except
了。它几乎无处不在,在那里我有正则表达式匹配。如果它没有找到正则表达式,就会抛出一个异常,所以我使用
try
和
except
来捕获它,以防止代码崩溃。
try
: match = re.search(r'John', Output, re.M|re.I) #use
try</
浏览 28
提问于2020-02-16
得票数 0
回答已采纳
1
回答
使用Python仅从PDF中提取特定文本
、
、
、
需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本,并将输出数据存储到特定的excel列
中
。所有PDF文件都有不同的结构,但内容值相同。
浏览 8
提问于2020-10-04
得票数 1
回答已采纳
1
回答
使用Tweepy将屏幕名称列表转换为用户ID
、
、
、
、
我正在使用Python
和
Tweepy编写一个基本程序,以获取Twitter屏幕名称的列表并下拉相应的用户ID。我已经
实现
了速率限制器,程序也正常工作,但当它遇到我的异常处理
时
,事情就会崩溃。它告诉我,X
中
的屏幕名称
在
等待15分钟后不存在。我需要异常处理,因为Tweepy在运行时经常
遇到问题
。我在这里做错了什么?f = open('output2.txt', 'w') for x in HandleList1: <
浏览 0
提问于2017-11-07
得票数 1
2
回答
解析pdf文件
时
使用
pdfminer
.six
时
出现问题
、
、
我正在尝试使用
pdfminer
.six从pdf中提取文本,我遵循了下面提到的代码import io output = io.StringIO()
pdfminer
.high_level.extract
浏览 0
提问于2018-02-09
得票数 2
4
回答
__
try
和
__exception可移植性
、
、
你好,再一次打扰一下“gcc”
中
的__
try
和
__
except
是有效句子吗?
在
*nux环境
中
,__
try</
浏览 5
提问于2012-09-20
得票数 2
3
回答
pdfminer
上的警告
、
、
、
我已经
在
堆栈溢出中找到并(略微)修改了这个脚本,以便它能够
在
python 3.3上工作:from
pdfminer
.layout import LAParams retstr.close() re
浏览 1
提问于2015-04-21
得票数 6
回答已采纳
1
回答
优化
pdfminer
、
、
、
、
我试图在生产上下文中使用
pdfminer
.six从pdf中提取文本。目前,对于我的基准44页文档,它大约需要18秒。我想尽量减少这方面的开支。from
pdfminer
.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom
pdfminer
.layout import LAParams from
pdfminer
.pdfpage import PDFP
浏览 0
提问于2017-08-03
得票数 4
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券