腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
python
中
返回
从
多个
PDF
中
提取
的
所有
文本
?
python
、
pdf
、
machine-learning
、
nlp
、
pdf-scraping
这是我
的
代码。到目前为止,它将把pdfs
的
所有
内容打印到pages变量。但是,我似乎不能
返回
相同
的
提取
文本
。我一直在测试它,
从
随机
的
pdf
中
提取
信息,并将其放入我调用
的
文件夹
中
。如何让它以相同
的
打印方式
返回
提取
的
文本
?import os import PyPDF2 as <e
浏览 14
提问于2020-07-19
得票数 0
回答已采纳
1
回答
在
python
中
是否有一种方法只
提取
核心
文本
(没有框、页脚等)。
从
pdf
里?
python
、
text
、
text-mining
、
text-extraction
、
pdfplumber
我只想从一个“富”
pdf
文档中
提取
核心
文本
,这意味着它有很多我不感兴趣
的
表格、图表、框、页脚等等。我尝试使用一些常见
的
python
包,
如
PyPDF2、pdfplumber或pdfreader.The,显然它们
提取
了
pdf
中
所有
的
文本
,包括上面列出
的
那些我不感兴趣
的
部分。PyPDF2 import PdfReaderp
浏览 11
提问于2022-11-07
得票数 -1
回答已采纳
1
回答
我如何阅读
python
的
pdf
?
python
、
python-2.7
、
pdf
、
text-extraction
我如
何在
python
中
读取
pdf
?我知道一种将它转换为
文本
的
方法,但是我想直接
从
pdf
中
读取内容。 有人能解释一下
python
中
哪个模块最适合
pdf
提取
吗?
浏览 2
提问于2017-08-21
得票数 45
2
回答
使用java
从
pdf
中
识别和
提取
表格
pdf
、
itext
、
pdfbox
、
java
我有不同类型
的
pdf
,其中包含
多个
东西,
如
文字,表格等。该表可能存在任何地方
的
pdf
(顶部,中部,底部)。我只想
提取
表数据(否)。列上
的
,不。在不传递位置
的
情况下使用java
从
pdf
中
提取
行和表
中
的
数据。
浏览 12
提问于2017-03-31
得票数 1
2
回答
根据内容删除特定
的
PDF
页面
pdf
我有超过50,000
PDF
文件,需要分配到客户帐户。但是,每个
PDF
包含
的
页面我不希望客户看到(内部公司
的
东西),所以我希望能够删除特定
的
网页,根据其内容(“仅供办公室使用”出现在页面上),并将
PDF
作为一个新
的
文件。我对脚本方面很满意,我只需要知道什么样
的
软件能够完成这样
的
任务。
浏览 0
提问于2016-10-25
得票数 1
2
回答
安装用于
PDF
文本
提取
的
弹出器
python
、
pdftotext
、
poppler
我试图跟随这个博客,尝试
从
发票
pdf
文件中
提取
文本
。我
的
文本
提取
需要
提取
发票
的
特定字段。 我不确定如何使用这个.tar文件来解压包并在
Python
中使用它。 任何建议,我
浏览 24
提问于2020-04-24
得票数 2
5
回答
使用
python
从
MS word docx文件
中
逐页
提取
文本
python
、
python-3.x
、
document
、
extraction
、
text-extraction
我有一个MS文件,我需要从其中
提取
文本
分页。我尝试过
python
,但它可以
提取
整个
文本
,但不能
提取
页面。我还将docx转换为
pdf
,然后尝试
文本
提取
。问题是,在转换之后,docx
的
页面结构发生了变化。例如,在转换时,字体大小被更改,而docx
的
一页
中
的
文本
内容在
pdf
中
占用了
多个
页面。 我正在
浏览 9
提问于2019-12-18
得票数 4
回答已采纳
1
回答
根据
pdf
_reference_1-7,ToUnicode CMap比编码有更大
的
优先级,但是这里有一个相反
的
文件,我该怎么办?
pdf
、
pdfminer
BaseEncoding: WinAnsiEncoding根据ToUnicode CMap,CID 31被映射到'3‘,这是错误
的
。
浏览 1
提问于2019-07-01
得票数 1
回答已采纳
1
回答
按主题
提取
PDF
文本
python
、
pdf
我试着按主题
从
PDF
中
提取
课文。为了做到这一点,我试图识别
PDF
中
的
标签\标题。如果有人知道如何克服这个问题,我会很高兴,这样就可以不依赖
PDF
(我使用
的
大多数
PDF
文件是文章\书籍)而
提取
标签(按主题分类)--按主题
提取
文本
的
不同方法也很受欢迎。(
如
标记所示,我正试图用
Python
进行此操作)现在我做了两件事:
浏览 1
提问于2016-04-03
得票数 0
1
回答
同时在
多个
文件上运行ipynb脚本/整个目录?
python
、
pdf
、
subprocess
\PDFs读取单个
PDF
,
提取
上述
PDF
的
文本
,然后通过剪接将感兴趣
的
文本
放入它创建
的
CSV文件
中
。问题是,我想在数百个
PDF
上执行这个脚本( ipynb脚本本身在单个
PDF
上执行时工作得很好,我只是不想继续手动更改Notebook/
Python
脚本
中
的
文件名)。/导入文件夹
中
的
所有
浏览 5
提问于2021-01-25
得票数 1
回答已采纳
3
回答
将
PDF
转换为.ipynb (
从
PDF
中
恢复木星笔记本)
python
、
pdf
、
jupyter-notebook
我有一个
PDF
文件是
从
木星笔记本创建
的
,但是原始
的
.ipynb文件丢失了。有什么工具可以帮助将
PDF
转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
8
回答
如
何在
Perl
中
从
PDF
文件中
提取
文本
?
perl
、
pdf
、
text
、
extract
我正在尝试使用Perl
从
PDF
文件中
提取
文本
。我一直在命令行中使用pdftotext.exe (即使用Perl函数)
从
system文件中
提取
文本
,这种方法工作得很好。问题是我们有像α,β和其他特殊字符
中
的
符号,这些符号不会显示在生成
的
txt文件
中
。此外,在
文本
中
随机添加
的
额外空格也很少。有没有一种更好、更可靠
的
方法来
从<
浏览 11
提问于2009-07-16
得票数 23
5
回答
使用pdfminer.six
从
pdf
文件中
提取
文本
时出错
python
、
pdf
、
windows-10
、
pdfminer
我正在尝试使用pdfminer.six库(
如
)
从
pdf
中
提取
文本
,我已经在我
的
虚拟环境
中
安装了它。')我怀疑这与
Python
有关,因为我在我
的
虚拟环境
中
安装了pdfminer,但我在我
的
系统
python</em
浏览 12
提问于2020-11-09
得票数 2
4
回答
PDF
-将单个单词拆分为单独
的
行-
Python
3
python
、
pdf
、
text
、
pdfminer
我正在尝试将
PDF
中
的
单词
提取
到单独
的
行
中
,但只能对
文本
文件执行此操作,如下所示。 此外,规则是我不能将
PDF
文件转换为TXT,然后执行此操作。必须对
PDF
文件执行此操作。,则此函数
返回
: Hello World! 我也需要对可搜索
的
PDF
文件做同样
的
事情。任何帮助都将不胜感激。
浏览 66
提问于2019-12-06
得票数 0
回答已采纳
1
回答
Python
库或工具,可以在可搜索/可选择
的
PDF
中
获取包围框,而无需使用tesseract或任何其他与OCR相关
的
解决方案
python
、
pdf
、
computer-vision
、
ocr
、
bounding-box
我找不到一个
python
脚本或库,或者一个工具,可以在一个可搜索/可选择
的
PDF
文件
中
给我在
文本
周围
的
包围框。我发现
的
所有
工具首先将
PDF
转换成图像,或者使用GhostScript或其他工具,然后使用OCR解决方案(
如
Tesseract )
提取
包围框。但是,是否有任何基于
python
的
纯解决方案可以在可搜索/可选择
的
P
浏览 9
提问于2022-11-10
得票数 0
1
回答
使用
python
从
多个
文件夹读取和
提取
多个
PDF
python
、
pdf
、
text
我有一个名为SOURCE
的
文件夹。此源文件夹有
多个
文件夹- A、B、C、D、E、F、G、H。
所有
这些文件夹都有
多个
PDF
文件。我想从All
中
读取单个
pdf
文件-一个
从
A
中
,一个
从
B
中
,一个
从
C
中
,一个
从
D
中
,直到H。所以在
所有
的8个文件夹
中
,我想读取第一个
pdf
文件并从中<e
浏览 16
提问于2021-06-25
得票数 0
回答已采纳
1
回答
阿拉伯
PDF
文本
抽取器
android
、
itext
有没有
从
pdf
中
提取
阿拉伯
文本
的
pdf
文本
提取
器api。private String extractPDF(String path) throws IOException { String parse
浏览 2
提问于2018-06-05
得票数 1
回答已采纳
1
回答
为什么要从iText7 C#中
提取
重复
的
页面?
c#
、
pdf
、
itext
、
itext7
我正在从
PDF
中
提取
文本
,并有一个问题,同样
的
文本
将从顺序页面
返回
。我使用iTextSharper编写了几个
PDF
解析器,并刚刚将以下代码
从
iTextSharper移植到iText7,假设存在缺陷,这只是一个iTextSharper问题:
浏览 1
提问于2020-11-20
得票数 0
回答已采纳
1
回答
可以在shell
中
逐行运行脚本,但完整脚本不
返回
任何内容。
python
、
shell
我使用一个
从
PDF
文件中
提取
文本
的
脚本。如果我在shell中一次运行一行脚本,它就可以正常工作(即
提取
的
文本
在shell窗口中
返回
),但是如果我尝试执行整个脚本,则不会
返回
任何内容。该脚本如下: pdfFileObj = open('c:\
Python
27\meetingminutes.
pdf
', 'rb')
浏览 2
提问于2015-10-01
得票数 1
回答已采纳
1
回答
使用
python
从
pdfs中
提取
特定
文本
pymupdf
、
pdfplumber
、
grobid
我尝试过不同
的
python
库来
从
pdfs中
提取
特定
的
文本
,我必须从这个
pdf
中
提取
标题下
的
文本
,我必须将从例1开始
的
文本
提取
为菱形粗体。 下一个
pdf
包含不同格式
的
的
数据。在这个
pdf
中
,我必须
从
历史
提取
数据到检查,然后
从
浏览 20
提问于2022-06-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
手把手教你如何用 Python从PDF 文件中导出数据
手把手教你如何用Python从PDF文件中导出数据
在Python中使用PDF:阅读和拆分
用Python实现一款永久免费的PDF编辑工具
Python爬取网站博客教程并制作成PDF
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券