腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pdfminer
解析
pdf
元
数据
日期
、
、
、
、
我正在尝试获取
pdf
文件的
元
数据
from
pdfminer
3.pdfparser import PDFParserparser = PDFParse
浏览 14
提问于2019-03-13
得票数 0
回答已采纳
2
回答
有没有办法提取
PDF
文档的页眉、页脚和标题页?
、
、
我想知道是否有包可以从
PDF
文档中检测和提取页眉和页脚或标题页?我是
使用
python进行文本挖掘的新手,我想知道,例如,
pdfminer
.layout可以帮助在pdfs中找到任何文本块吗?
浏览 16
提问于2018-01-18
得票数 1
回答已采纳
3
回答
快速Python
PDF
元
数据
阅读器
、
、
我正在寻找一个非常快速,轻量级的Python库来读取
PDF
元
数据
。我不需要任何写功能。如果只加载
元
数据
信息,而不是整个文件,效果会更好。
浏览 2
提问于2010-12-10
得票数 5
1
回答
解析
pdf
元
数据
日期
并不适用于所有pdfs。
、
、
、
、
我试图
使用
pdfminer
获得多个pdfs的修改
日期
import refrom
pdfminer
3.pdfparserimport PDFParser pr
浏览 0
提问于2019-03-13
得票数 0
回答已采纳
3
回答
PDF
元
数据
中关键字的分隔符
、
、
我找不到关于
PDF
文件的
元
数据
中的关键字和关键字短语是用逗号分隔还是用带空格的逗号分隔的“正式”文档。
浏览 4
提问于2017-06-17
得票数 14
2
回答
Python &
PDF
解析
:有任何现代的、强大的、维护良好的开源库吗?
、
、
、
、
我正在寻找维护良好和文档齐全的Python强大
PDF
解析
库(主要用于从具有不同/不可预测结构的各种类型的
PDF
中提取和
解析
数据
,包括借助可靠和强大的OCR)。/
pdfminer
/
pdfminer
.six (最后一次提交是3天前--似乎是维护最活跃的项目) 在我看来,
PDFMiner
API
使用
起来有点过于复杂了-- 这里有一个很好的例子。用于
PDF
的现代表
解析
器与Cam
浏览 0
提问于2019-11-14
得票数 4
回答已采纳
1
回答
转换
PDF
文件为XML文件,最好
使用
ITextSharp
、
、
、
我有一个
PDF
文档,我需要从中读取
数据
。我发现,当我将上述
PDF
转换为XML文档时,可以从其中读取方便的标记,因此我需要一种方法来在代码中将我的文件转换为xml,这样我就可以
使用
映射文件将
数据
内容读取到
数据
库中。
浏览 2
提问于2012-06-22
得票数 3
4
回答
在Python中将
PDF
的CreationTime转换为可读格式
、
、
、
我正在
使用
Python处理
PDF
,并且我正在
使用
PDFMiner
访问文件的
元
数据
。我
使用
以下命令提取信息:fp = open('diveintopython.
pdf
'
浏览 0
提问于2013-05-12
得票数 6
回答已采纳
1
回答
如何在
使用
pdf
miner
解析
pdf
时忽略字符集错误
、
、
、
、
大家好,我在
使用
pdf
miner
解析
pdf
文件时遇到了编码错误。from
pdfminer
.pdfdocument import PDFDocumentfrom
pdfminer
.pdfpage/pathto/pdffile.
pdf
") parser =PDFParser(f
浏览 35
提问于2021-06-19
得票数 0
1
回答
Pdfminer
使用
layout和bbox
解析
文档
、
我正在
使用
pdfminer
来
解析
某些类型的
pdf
(仅用于文本),如学位证书等。因此,对于特定的机构,这些保持不变,并且可能在不同的机构中有所不同。因为我是新手,如果我能得到任何关于如何在布局中
解析
不同对象(如注册号)的想法,我将不胜感激。
解析
或操纵边界框或任何曲线的不同方式有哪些?from
pdfminer
.pdfpage import PDFPage from
pdfminer
.pdfpage import PDFTextExtractionNotA
浏览 46
提问于2020-02-07
得票数 1
2
回答
从pdfs和文档中提取文本和
元
数据
、
我想知道如何从文档such as bold text or big titles中提取文本和相关元
数据
的方法。那么,我如何从文件中提取所需的
数据
呢?
浏览 11
提问于2020-10-22
得票数 0
回答已采纳
1
回答
如何从头开始制作python中的
pdf
解析
器
、
我希望从零开始制作
PDF
解析
器,
使用
Python (或)任何导致调整现有库/算法的方法。
浏览 1
提问于2016-06-12
得票数 0
1
回答
意外的EOF,
使用
slate
解析
Python 2.7.12上的
PDF
文件
、
、
、
、
import slate doc = slate.
PDF
(f) print pageFile "C:\Python27\lib\sit
浏览 6
提问于2016-08-26
得票数 1
1
回答
PDFMiner
-导出页面作为字符串列表
、
、
我希望从
PDF
导出文本作为字符串列表,其中列表是整个文档,字符串是
pdf
页面。我正在
使用
PDFMiner
来完成这项任务,但它非常复杂,而且我的截止
日期
很紧。到目前为止,我已经得到了将完整
pdf
提取为字符串的代码,但我需要它以字符串列表的形式出现。我的代码如下from
pdfminer
.pdfpage import
浏览 2
提问于2015-01-30
得票数 1
回答已采纳
2
回答
用
PDFMiner
编辑
pdf
文件
、
我想知道是否可以用
Pdfminer
编辑现有的
pdf
文件。它看起来是一个强大的工具,但文档很差/不存在。我找到了一些例子,但它们与我的目标不匹配。我想做一个搜索引擎,改变我在
pdf
文件中的关键字的颜色。
浏览 2
提问于2011-11-24
得票数 1
1
回答
使用
pdfminer
.six从每个
PDF
页面提取文本
、
、
、
pdfminer
的文档充其量也是很差的。我最初
使用
的是
pdfminer
,并将其用于一些
PDF
文件,然后我遇到了一些错误,并意识到我应该
使用
pdfminer
.six。我想从
PDF
的每一页提取文本,这样我就可以在哪里找到特定的单词和类似的标签。
使用
文档:from
pdfminer
.pdfdocument import PDFDocumen
浏览 4
提问于2018-09-26
得票数 2
1
回答
将cp1251
pdf
解析
为python中的文本
、
、
、
有什么方法可以用俄文(cp1251)从
pdf
文件中提取文本吗? 对于
解析
pdf
文件,我
使用
pdfminer
包。我试图在
pdfminer
.converter.TextConverter类的参数中指定编码,但没有帮助。
浏览 7
提问于2015-08-26
得票数 1
回答已采纳
1
回答
解压缩嵌入的
PDF
- PDFInterpreterError:未知运算符:'\x00‘
、
、
、
使用
Scrapy,我想下载一个
pdf
到读取二进制文件到内存中,并提取内容。编辑:我正在
使用
pdfminer
和下面的函数,这个函数之前已经工作过了: File "E:\Miniconda2\envs\contact2E\lib\site-packages\
pdfminer
\pdfinterp.py", line
浏览 3
提问于2017-11-23
得票数 0
6
回答
在Python中读取
PDF
属性/
元
数据
、
、
如何
使用
Python读取存储在
PDF
文件中的属性/
元
数据
,如标题、作者、主题和关键字?
浏览 3
提问于2013-01-08
得票数 42
回答已采纳
2
回答
如何
使用
python向任何给定文件添加数字签名
、
、
如何
使用
python向任何给定的文件添加数字签名并进行验证。即输入一个文件,输出一个数字签名的文件,并给出一个带有密钥的数字签名文件来验证数字签名。如何
使用
python做到这一点?
浏览 8
提问于2017-03-03
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
20行Python代码教你批量将PDF转为Word
用Python实现一款永久免费的PDF编辑工具
EXCEL日期数据录入技巧,使用日期下拉菜单或使用漂亮的控件
20行Python代码教你批量将PDF文件转为Word格式
三大神器助力Python提取pdf文档信息
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券