腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5096)
视频
沙龙
1
回答
在
python
中将
pdf
文件
转
换为
文本
?
我
也
用过
pypdf2
和
pdfminer
,
它们
都不能
正常
工作
python
、
pdf
import fitzdoc = fitz.open(file) for page in doc
浏览 7
提问于2021-04-24
得票数 0
2
回答
可以
在
Python
中提取带有空格的
pdf
吗?
python
、
pypdf
、
pdftotext
在
创建了一个使用java
和
pdfbox提取
pdf
的工具之后,
我
一直
在
尝试用
Python
提取
pdf
。虽然对于相同的
pdf
,Java实现是成功的,但我一直
在
努力
在
python
中做同样的事情,因为
pdfminer
和
pypdf
和
pypdf2
都不能
逐行提取带有空格的
pdf
。特别是,出于某种奇怪的原因,<
浏览 10
提问于2013-06-16
得票数 4
5
回答
如何使用
Python
中的
PDFMiner
获取
PDF
文件
的总页数?
python
、
pdfminer
在
PyPDF 2中,pdfreader.getNumPages()给出了一个
PDF
文件
的总页数。 如何使用获得这个
浏览 6
提问于2017-08-23
得票数 5
回答已采纳
6
回答
使用
python
中的
PDFMiner
从
PDF
文件
中提取
文本
?
python
、
python-3.x
、
python-2.7
、
text-extraction
、
pdfminer
我
正在寻找有关如何使用
PDFMiner
和
Python
从
PDF
文件
中提取
文本
的文档或示例。 看起来,
PDFMiner
更新了
它们
的API,
我
发现的所有相关示例都包含过时的代码(类
和
方法已经更改)。
我
发现,使从
PDF
文件
中提取
文本
的任务变得更容易的库使用了旧的
PDFMiner
语法,因此
我
不知道如何做
浏览 11
提问于2014-10-21
得票数 112
回答已采纳
1
回答
有没有用RTL语言从
PDF
中很好地提取
文本
的
python
包?
python
、
pdf
、
text-extraction
、
text-alignment
、
persian
我
曾经为
PDF
文件
使
用过
著名的
python
包,比如
PDFminer
、PyMuPDF、
PyPDF2
等等。但是他们
都不能
正确地从
PDF
文件
中提取
文本
,这些
文件
是用从右到左语言(波斯语、阿拉伯语)编写的。例如:doc = fitz.open("*/path/to/file.
pdf
") txt =
浏览 1
提问于2018-07-25
得票数 4
3
回答
不创建
文件
将
pdf
转
换为
文本
python
、
pdf
、
text
我
想从一个网站下载
pdf
文件
和文字
工作
。但是,
我
不想创建一个
pdf
文件
,然后将其转
换为
文本
。
我
使用
python
请求。有什么方法可以直接在下面的代码之后得到
文本
吗?
浏览 1
提问于2017-11-12
得票数 0
回答已采纳
1
回答
使用
Python
突出显示
PDF
中的
文本
python
、
pdf
、
search
、
pypdf
、
pdfminer
我
正在为
我
的
PDF
数据语料库定制搜索引擎。有没有办法
在
PDF
浏览 0
提问于2016-10-27
得票数 16
3
回答
用于读取
PDF
文件
的
Python
python
、
pdf
我
发现很多帖子都提出了阅读
PDF
的解决方案。
我
想一个字一个字地阅读
PDF
文件
,并对它做一些处理。人们推荐
pdfMiner
,它可以将整个
PDF
文件
转换成
文本
文件
。但我想要的是一个字一个字地读
PDF
。
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
1
回答
如何从
PDF
转
换为
TXT而没有意外的换行符?
python
、
python-3.x
、
pdf
、
pypdf2
、
pdfminer
我
正在尝试转换一个非常干净的
PDF
文件
到txt
文件
使用
python
。
我
试过使用
pyPDF2
和
PDFMiner
,
它们
在
文本
识别方面都
工作
得很好。然而,由于
在
PDF
中的行是换行的,提取的.txt
文件
在
末尾有意外的换行符:例如,第1行:"is an account of the Elder
浏览 8
提问于2021-05-26
得票数 0
1
回答
如何用
Python
从
PDF
文件
中读取简单的
文本
?
python
、
python-3.x
、
pdf
、
text
需要解析一个
PDF
文件
,以便只提取最初的
文本
行,并且已经查找了不同的
Python
包来完成这项
工作
,但是没有任何结果。试过的: ,它给出了不同的终
浏览 7
提问于2020-01-24
得票数 7
7
回答
从
PDF
提取中去掉了空格,并解释了奇怪的单词
python
、
pdf
、
unicode
、
pypdf
使用下面的代码片段,
我
尝试从
PDF
文件
中提取
文本
数据。import pyPdf # Load
PDF
into pyPDF # Iterate pages for i in range(0,
pdf
.getNumPages()):
浏览 7
提问于2012-06-19
得票数 11
回答已采纳
3
回答
将
PDF
数据抓取到Excel *绝对初学者*
python
、
pdf
、
pdfminer
、
pypdf2
、
pdfrw
对
我
来说,这是蟒蛇的第一天。
我
过去曾用VBA、Java
和
Swift编写过代码,但我在网上编写
pdf
刮刀的指南时遇到了特别困难。基本信息
在
python
中创建一些内容,允许
我
将
PDF</e
浏览 4
提问于2017-06-12
得票数 2
1
回答
读取
PDF
表单
文件
并返回可填充的字段坐标
和
字段名称
python
、
python-3.x
、
pdf
、
pdf-form
、
pdfrw
我
有一个
PDF
文件
,它本质上是一个表单。
我
需要返回可填充的位置;要填充的字段、
它们
的页码以及
它们
的坐标,
我
可以在其中放置一个边界框。
我
遵循了各种方法来处理这个问题,但事实证明,使用
PDF
是非常困难的。有关
PDF
文件
的详细信息:
pdf
= PdfReader('RED-46808(Short).
pdf</em
浏览 3
提问于2020-02-26
得票数 0
2
回答
无法使
我
的脚本以所需格式打印输出
python
、
python-3.x
、
web-scraping
、
pypdf2
我
正在尝试从
pdf
文件
中提取特定部分的
文本
。
我
使用了
PyPDF2
库来完成这个任务。然而,当我超出下面的脚本,
我
可以看到,
我
想要获取的内容是打印
在
控制台笨拙。到目前为止,
我
已经写到:import
PyPDF2
URL = 'http://www.ct.gov/hix/lib/hix
浏览 0
提问于2019-08-04
得票数 2
回答已采纳
11
回答
如何在
Python
3.7中从
pdf
中提取
文本
python
、
pdf
、
python-3.7
、
pypdf2
、
pdf-extraction
我
正在尝试使用
Python
从
PDF
文件
中提取
文本
。
我
的主要目标是试图创建一个程序,读取银行对账单,并提取其
文本
,以更新excel
文件
,以方便地记录每月的支出。现在
我
只专注于从
pdf
文件
中提取
文本
,但我不知道如何做到这一点。 当前将
PDF
文件
中的
文本
提取为字符串的最佳
和
最简单的方法是什么?现在最好使用的库是什么,
浏览 203
提问于2019-04-20
得票数 19
回答已采纳
1
回答
将
PDF
转
换为
文本
: Adobe与
Python
库
python
、
pdf
、
pdfminer
、
adobe-reader
我
有一个
PDF
,
我
试图转
换为
文本
,以进一步处理。
PDF
的结构是稳定的,但很棘手,因为它还包含一些元素
和
图表,有时
也
用作
在
特定位置编写的
文本
的背景。因此,
我
想提取尽可能多的
文本
。
我
首先尝试使用Adobe函数将
PDF
保存为
文本
,这样可以获得很好的结果,但不允许这个过程完全自动化。至少
我
不知道如何通过命令行与Ado
浏览 6
提问于2021-06-24
得票数 0
回答已采纳
3
回答
pdfminer
上的警告
python
、
pdf
、
python-3.x
、
pdfminer
我
已经
在
堆栈溢出中找到并(略微)修改了这个脚本,以便它能够
在
python
3.3上
工作
:它
工作
得很好,但是
我
似乎有两个问题: 警告:根:未定义: PDFCIDFont: basefont=‘LKOELN+Win
浏览 1
提问于2015-04-21
得票数 6
回答已采纳
2
回答
提取LTFigure对象后面的
文本
python
、
pdf
、
pdfminer
我
正在使用
python
pdfminer
库(参见docs)从
pdf
文件
中提取
文本
。 然而,
pdfminer
似乎无法提取某些
文件
中的所有
文本
,而是提取LTFigure对象。假设从这个对象的位置,它“覆盖”了一些
文本
,因此这个
文本
没有被提取出来。
pdf
文件
和
包含从
pdf
提取信息的代码的简短jupyter笔记本都在
我
浏览 149
提问于2021-01-28
得票数 0
回答已采纳
21
回答
如何从
PDF
文件
中提取
文本
?
python
、
pdf
我
正在尝试使用
Python
提取包含在
文件
中的
文本
。
我
使用的是模块,并具有以下脚本:
pdf
_file = open('sample.
pdf
')number_of_pages = read_
pdf
.getNumPages() page = read_
pdf</e
浏览 326
提问于2016-01-17
得票数 266
2
回答
PyPDF2
忽略内容,仅获取水印
python
、
pypdf2
我
有成千上万的
PDF
文件
,像。import
PyPDF2
for filename in
浏览 0
提问于2018-06-14
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
不再为处理PDF烦恼,python处理操作PDF全攻略
用Python实现一款永久免费的PDF编辑工具
在Python中使用PDF:阅读和拆分
手把手教你如何用Python从PDF文件中导出数据
手把手教你如何用 Python从PDF 文件中导出数据
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券