腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Camelot
查找
PDF尺寸
、
、
我正在使用
Camelot
来阅读完整
的
PDF,并从每个PDF中提取约112个属性。我使用
表
区来提取属性 test_variable =
camelot
.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) 问题是,对于所有文档中
的
相同属性,
表
区域
并不是恒定
的
。test_variable =
浏览 23
提问于2019-01-14
得票数 4
2
回答
如何
查找
camelot
的
表
区域
正如在
camelot
中提到
的
,我们可以从特定
区域
提取
表
,例如: tables =
camelot
.read_pdf('table_regions.pdf', table_regions=['170,370,560,270']) 但是我怎样才能为我
的
pdf找到这些
区域
。
浏览 34
提问于2019-09-20
得票数 3
1
回答
Camelot
没有检测到
表
中
的
表
、
、
我注意到
camelot
没有检测到我所拥有的示例文档中
的
嵌套
表
。在所附
的
图像中,我只提取了一个完整
的
表
。我们是否也可以使用它来检测内部
表
呢?
浏览 4
提问于2021-12-23
得票数 0
回答已采纳
1
回答
table_regions与table_areas
的
区别
我阅读并重新读取了文档,但我仍然不理解,table_regions和table_areas之间
的
区别--对于我来说,这两个参数是相同
的
.我认为文档可以更具体地说明approximate region
的
含义以及与table_areas
的
区别 我希望有人能向我解释清楚这两种功能
的
区别。
浏览 5
提问于2020-01-20
得票数 1
回答已采纳
3
回答
Python无边界
表
提取问题
、
我正在努力提取一些无边界
的
表格,如下图所示,这些表格来自pdf文件。我已经安装了python,如图中所示,它只适用于边缘
表
。Python3.6.1(默认,2017年5月15日,11:42:04)GCC 6.3.1 20161221 (红帽6.3.1-1)cv2 - OpenCV 3.4.3
浏览 0
提问于2018-11-08
得票数 8
回答已采纳
1
回答
Camelot
PDF维数
、
、
不幸
的
是,我不能对此发表评论,以跟进“任择议定书”,看看他们是否找到了解决办法。我使用
Camelot
来识别
表
(很明显)。有时,当我知道页面中可能包含感兴趣
表
的
区域
时,我只想在该
区域
中搜索。问题是,我使用PyMuPDF获取这些坐标,所以它们位于PyMuPDF
的
坐标系中。我已经知道
如何
翻译这些坐标,但我遗漏了卡米洛特
的
一个关键信息--页面的尺寸。我对其他选项开放,基本上我想检查页面的某个
浏览 1
提问于2019-12-03
得票数 4
1
回答
Camelot
-py未检测到一行中
的
两行文本
、
、
、
使用
Camelot
-py从.PDF抓取
表
数据,但它不会拾取堆叠
的
文本行(请参阅下面的第9行和第10行)
camelot
.plot(tables[0], kind ='contour')使用MatPlotLib,我可以看到
Camelot
正确地检测到了第9页<
浏览 14
提问于2020-03-12
得票数 1
2
回答
有没有办法从PDF中提取无边框表格到CSV?
、
、
这是我
的
示例图片,来自pdf文件,有75页。
浏览 77
提问于2020-06-08
得票数 1
1
回答
Python库
Camelot
没有在一页中读取所有
表
、
、
我正在使用
Camelot
库来读取pdf文档页面中
的
所有
表
我试着调试绘图页面,如果我改变了页面的风格,我注意到了一些东西:这是带有风味
的
如果我使用风味=‘stream’,它将正确地读取数据,但只读取一个
表
:是这样命名
的
。我尝试使用table_area/table_regions来检测这两个
表
浏览 13
提问于2022-03-31
得票数 0
回答已采纳
2
回答
如何
遍历数据框列表并在未找到特定字符串时丢弃所有数据
、
、
、
我正在使用python库
Camelot
解析多个PDF,并提取出这些PDF文件中
的
所有
表
。第一行代码返回从pdf中以列表格式抓取
的
所有
表
。我正在寻找一个
表
,其中有一个独特
的
字符串。谢天谢地,这个字符串对于这个
表
是唯一
的
,所以从理论上讲,我可以使用它来隔离我想要获取
的
表
。 这些pdf或多或少是以相同
的
格式创建
的
,但是有足够
的
差异,我不能只在我想要<e
浏览 19
提问于2019-03-08
得票数 2
回答已采纳
2
回答
Python-
Camelot
提取空
表
、
、
、
、
我正在使用
Camelot
通过以下命令提取PDF
的
多个部分。38,469,106,456', '39,454,105,445', '38,430,155,420', '38,418,77, 410']) 当PDF实际上包含这些
区域
中
的
数据时但我并不期望在每个解析
的
PDF中都有数据,有些数据返回为空。当返回
的
数据不是
表
,并且只有一列时,我会得到以下错
浏览 37
提问于2019-01-02
得票数 1
1
回答
如何
使用python-
camelot
获取表格坐标?
、
、
我试图解析一些pdf文件,以便提取一些关键
的
information.There是在每个pdf中包含这些信息
的
一部分
的
表
的
数量。因此,我尝试使用
camelot
来提取
表
,并获得了很好
的
结果,但我希望提取每个
表
的
标题,因为我希望为每个
表
与其标题进行映射。因此,我尝试使用tables[i]._bbox获取每个
表
的
坐标,然后向这些坐标添加一些边距,以检测
表
浏览 83
提问于2019-09-19
得票数 3
回答已采纳
1
回答
尝试使用
camelot
-py绘制pdf
表
,但没有出现
表
、
、
我正在尝试绘制表格以进行调试并
查找
表格坐标,但是该图形从未出现在屏幕上。我已经下载了
camelot
的
所有依赖项,但我似乎想不出
如何
让图形出现。file = "JapanTownDoorSchedule.pdf" print(tables[0].
浏览 31
提问于2021-02-27
得票数 0
回答已采纳
2
回答
camelot
python;OSError:异常:访问冲突写入0x00000080
、
、
、
、
我试图用
Camelot
从PDF文件中提取表格。下面是我
的
代码:tables =
camelot
.read_pdf('foo.pdf')当我运行这个脚本时,我得到了如下错误: table=table
浏览 6
提问于2019-10-24
得票数 1
1
回答
如何
从PDF文件中
的
表
中提取多个熊猫数据,并将它们存储为Python中
的
CSV?
、
、
、
我有一个食谱PDF文件,它由各种
表
组成,这些
表
描述了我正在使用
的
一个数据集中使用
的
变量。由于实际数据由我需要
查找
的
值组成,因此需要从本食谱中
的
所有
表
中创建多个CSV输出文件。例如,在这个PDF文件
的
第15页,我们有一个
表
如下所示,我需要从中提取熊猫数据,以便我可以将它保存为CSV文件供以后使用。我不关心这些
表
中
的
“总计”,因为我只需要value和label字段。 我试图通过在P
浏览 12
提问于2021-12-08
得票数 0
1
回答
如何
使用python从pdf中提取单个行
表
数据?
、
、
、
、
pdf中
的
一些
表
只包含一行。我一直在尝试使用
camelot
库提取数据。使用
Camelot
提取代码:import
camelot
tables =
camelot
.read_pdf(file,pages ="all")以上代码无法提取单个行
表
信息。
浏览 18
提问于2022-11-22
得票数 -1
回答已采纳
2
回答
没有用tabula和
camelot
检测到
的
表
、
、
、
、
我试图从PDF中提取我认为格式不正确
的
表
。这些PDF中
的
表
有一种表格格式,但没有适当地用实际边框括起来。 输入0表示单个页面,1用于所有页面,2用于
表
中
的
页面,3用于特定页面:3输入0表示格,1输入流:0输入页面号: 25没有被
camelot
找到
的
表
。输入0用
浏览 4
提问于2021-11-22
得票数 1
3
回答
如何
从历史PDF中提取
表
?
、
、
、
、
我需要从这个中从类似格式
的
表
中提取数据。有一些OCR错误,但我有一个自动
的
方法来纠正它们。 对于这类工作<e
浏览 0
提问于2019-02-23
得票数 1
回答已采纳
1
回答
Python
Camelot
-导出文件,而不附加附加到文件名
的
字符串。
、
、
Python 3.7与
Camelot
0.7.3。目前,
Camelot
将转换后
的
文件导出为“page--table-”附加到文件名--我们对我们
的
应用程序有非常具体
的
文件名要求,而且我正在尝试导出文件,而不需要附加到文件名上
的
额外字符串。这个是可能
的
吗?文档中没有提到任何关于
如何
绕过这个问题
的
内容。
浏览 2
提问于2020-03-12
得票数 1
2
回答
用
Camelot
解析Python并提取
表
标题
、
、
、
Camelot
是一个非常棒
的
Python库,可以作为数据框架从pdf文件中提取
表
。然而,我正在寻找一个解决方案,它也返回
表
的
描述文本,写在
表
的
上方。我用于从pdf中提取
表
的
代码如下:tables =
camelot
.read_pdf('test.pdf', pages='all',lattice=True, suppress_s
浏览 0
提问于2019-10-01
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
有空行的非标 Excel 表,如何给间隔的每个区域排序?
Excel两表对比提取方法:如何查找未到人员名单信息?
如何按照 Excel 中的目录,从多个工作表中查找出完整数据?
如何在 Excel 二维表中横向查找最晚更新的非空值?
如何查找出 Excel 表中每个分类第一次满足条件的行?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券