腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pdfplumber
查找
PDF
中
的
文本
,
返回
页码
,
然后
返回
表格
、
我下载了42个
PDF
,每个
PDF
的
格式都是相似的。每个都有不同
的
表,其中一个被标记为“校园报告
的
事件”。该特定
表格
位于每个
PDF
中
的
不同页面上。我想写一个函数,它将搜索包含“校园事件报告”
的
页面,并抓取该表,以便我可以将其放入数据帧
中
。我想我可以
使用
PDFPlumber
搜索字符串"Campus Reported Incidents“并
返回</em
浏览 88
提问于2019-05-02
得票数 5
1
回答
pdfplumber
可以为我扫描
的
pdf
提取
表格
吗?
、
、
、
、
(我知道
pdfplumber
主要是针对计算机生成
的
PDF
。然而,在我花几天时间从扫描
的
PDF
文件
中
手动输入数据之前,我想我应该问问
pdfplumber
是否能以某种方式帮助我。)我
的
问题是:示例: 现在,我正在尝试从扫描
的
PDF
中提取
表格
(示例
中
右下角
的
表格</em
浏览 9
提问于2021-11-18
得票数 0
1
回答
尝试用
PDFPlumber
结果在FileNotFoundError
中
打开
PDF
、
、
我有一个由VBA调用
的
python脚本,它循环遍历excel工作簿
中
的
任何文件夹,
然后
返回
该文件夹
中
的
PDF
(因为只有一个),
然后
打开它并
返回
文本
;然而,我得到以下错误,我不知道我做错了什么: with
pdfplumber
.open(
pdf
_file) as <em
浏览 16
提问于2022-02-01
得票数 0
1
回答
如何用
PDf
管道工只提取主
文本
而忽略图像
文本
和
表格
?
、
、
、
、
试图解析任何未扫描
的
pdf
和只提取
文本
,没有
表格
和他们
的
评论或图片和他们
的
评论。只有主
文本
的
pdf
,如果这样
的
文本
存在。曾经做过水管工。 with
pdfplumber
.open("somePDFname.
浏览 16
提问于2022-10-26
得票数 0
2
回答
如何
使用
PDFplumber
只提取
pdf
文件
中
没有
表格
的
文本
?
、
、
、
我想
使用
NLP模块处理一些
pdf
文件,
然后
从所有现有的表
中
清除这些文件。这是
使用
pdfplumber
提取表
的
代码
pdf
=
pdfplumber
.open("file.
pdf
")table=page.extract_table() 但是我想反转操作,只提取
文本
浏览 4
提问于2021-02-21
得票数 1
1
回答
水管工错过了原理图中所有表
的
第一列和最后一行。
、
我是新来
的
水管工,我惊讶于它是如何从
表格
中提取
文本
的
。它无法提取文档
中
每个表
的
第一列和最后一行。我试图调整table_settings变量
中
的
几个配置参数,不幸
的
是,我没有能够获得更好
的
结果(在我
的
例子
中
,如果我
使用
浏览 13
提问于2021-11-22
得票数 0
回答已采纳
2
回答
如何
使用
索引从
PDF
中提取所有
文本
、
、
我对Python和一般
的
编码都是新手。我正在尝试创建一个程序,它将OCR一个目录
的
PDF
,
然后
提取
文本
,以便我以后可以挑选出具体
的
东西。但是,我在让
pdfPlumber
从所有页面中提取所有
文本
时遇到了问题。你可以从开始到结束建立索引,但是如果结束是未知
的
,它就会中断,因为索引超出了范围。'):
浏览 35
提问于2020-07-09
得票数 2
回答已采纳
1
回答
基于Python
中
的
头
文本
提取
PDF
页面
、
、
、
、
我有一份“亚洲涂料有限公司”
的
年度报告。我想提取“综合资产负债表页”(这是
PDF
中
的
216页)。我
使用
了PyPDF并创建了一个函数,该函数提取所有
文本
,搜索关键术语“综合资产负债表”,并
返回
找到它
的
页码
。但是,我希望我
的
功能能够识别包含‘综合资产负债表’这个词
的
页面为一个头和所需
的
表(也就是这个
pdf
中
的
216页)。这是我<em
浏览 10
提问于2022-01-21
得票数 2
1
回答
在python
中
是否有一种方法只提取核心
文本
(没有框、页脚等)。从
pdf
里?
、
、
、
、
我只想从一个“富”
pdf
文档中提取核心
文本
,这意味着它有很多我不感兴趣
的
表格
、图表、框、页脚等等。我尝试
使用
一些常见
的
python包,如PyPDF2、
pdfplumber
或pdfreader.The,显然它们提取了
pdf
中所有的
文本
,包括上面列出
的
那些我不感兴趣
的
部分。PdfReaderpage = file.pages[10] text = pag
浏览 11
提问于2022-11-07
得票数 -1
回答已采纳
2
回答
如何强制
pdfplumber
根据上面行
的
列数提取
表格
?
、
我正在尝试用python包
pdfplumber
从
PDF
文档中提取一个表。该表有四列和多行。第一行是标题,第二行只有一个合并
的
单元格,
然后
值被正常保存(例如)
pdfplumber
能够检索
表格
,但如果有四列,它会生成6列,并根据列保存值。Table as shown in
PDF
document ? 我尝试
使用
不同
的
表格
设置,包括“垂直策略”:“线”,但这产生了相同
的
结果。# Python 2.
浏览 47
提问于2019-10-09
得票数 0
1
回答
pdfplumber
extract_text函数也可以从
表格
中提取
文本
。只想提取表外
的
文本
、
、
我有一个包含
文本
和
表格
的
pdf
。我想将它们都提取出来,但是当我
使用
extract_text函数时,它也会提取表
中
的
内容。我只想提取表外
的
文本
,并且可以
使用
extract_tables函数提取该表。我测试了一个只包含
表格
的
pdf
,但仍然
使用
extract_tables函数提取我想要提取
的
表格
内容。
浏览 232
提问于2021-10-01
得票数 0
1
回答
如何提取
文本
和
表格
、
、
使用
pdf
管道工库,您可以提取
PDF
页面的
文本
,也可以从
pdf
页面中提取
表格
。我希望产出如下: "table name", "text 2"] 在本例
中
,您可以从
pdfplumber
浏览 6
提问于2022-03-25
得票数 2
回答已采纳
1
回答
动态生成
PDF
、
我是在动态生成
的
pdf
文件,我有
PDF
模板,我创建了类似的动态
使用
ITextSharp,我创建
的
pdf
和
返回
的
base64字符串到移动应用程序,
然后
将base64转换为
pdf
。模板如下所示 页脚
的
免责声明和
页码
将出现在
PDF
文件
的
所有页面
中
,并且
页码
也是动态
的
。我已经成功地创建了它,它不是完
浏览 0
提问于2017-10-06
得票数 0
1
回答
当正则表达式以字符串类型读取数字时,我如何找到模式?
、
、
我正在尝试编码一个
pdf
阅读器脚本。当我用RE编写模式时,它什么也不
返回
。输入: import requestsimport pandas as pd page =
pdf
.pages[0] decl = re.compile(r'
浏览 13
提问于2021-07-18
得票数 0
回答已采纳
2
回答
没有用tabula和camelot检测到
的
表
、
、
、
、
我试图从
PDF
中提取我认为格式不正确
的
表。这些
PDF
中
的
表有一种
表格
格式,但没有适当地用实际边框括起来。 为单个页面输入0,对所有页面输入1,对于特定页面输入2:2输入
页码
: 25没有通过
表格
在此页面上找到表。当我
使用
ca
浏览 4
提问于2021-11-22
得票数 1
2
回答
如何从
pdfplumber
解压后删除英文单词之间
的
空格
、
、
我已经提取
文本
从
pdf
(
使用
pdfplumber
)到txt,但有一些空格之间
的
文字不在
PDF
文件
中
。 我曾尝试
使用
"Previous_word“+ "current_word”组合来nltk
查找
单词,并检查NLTK.words
中
是否存在这些单词,以找出单词之间有额外空格
的
位置,但效果不佳。
浏览 11
提问于2021-03-15
得票数 0
1
回答
如何
使用
iText从书签创建
PDF
文件
中
的
目录页?
、
、
我需要在
PDF
中
创建一个到
表格
内容
的
页面。我将创建
PDF
阅读书签。对于iText,我
使用
:
使用
此
PDF
进行测试: [{Action = GoTo, Named =没有
页码
。我想展示这一点:
浏览 4
提问于2016-08-18
得票数 1
回答已采纳
2
回答
用Python提取
PDF
文件
的
文本
和表
、
、
、
、
我正在寻找一个从
PDF
文件中提取
文本
和
表格
的
解决方案。虽然有些包适合提取
文本
,但它们不足以提取表。) 第二,如果页面
中
存在表,我如何提取表
pdfplumber
可以
使用
extract_text()和extract_table
浏览 8
提问于2021-09-21
得票数 1
1
回答
使用
python从pdfs中提取特定
文本
、
、
我尝试过不同
的
python库来从pdfs中提取特定
的
文本
,我必须从这个
pdf
中提取标题下
的
文本
,我必须将从例1开始
的
文本
提取为菱形粗体。 下一个
pdf
包含不同格式
的
的
数据。在这个
pdf
中
,我必须从历史提取数据到检查,
然后
从检查到调查与历史和调查作为一个excel文件
中
的
列和相应
的
数据行。pyt
浏览 20
提问于2022-06-30
得票数 0
1
回答
如何解析Foundry中原始数据集中
的
pdf
文件?
、
、
、
、
我有一个原始数据集,其中包含多个
PDF
文件。我希望能够获得一个Foundry数据集,该数据集在一列
中
包含这些pdfs
的
文本
,在另一列
中
包含文档
的
名称。doc_name | text |xyz.
pdf
| asdf |我
的<
浏览 9
提问于2022-11-01
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 竟能解析 PDF 表格?
三大神器助力Python提取pdf文档信息
在Python中使用PDF:阅读和拆分
利用 Python将PDF 文档转为语音音频
十大实用word动图小技巧,效率提升10倍
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券