腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PDF
提取
中
缺少
表格
布局
信息
java
、
itext
、
pdfbox
、
sax
、
apache-tika
我已经研究了从
pdf
中
提取
文本/数据,并使用了其他一些堆栈溢出答案来帮助我,我设置的是Tika通过一个自定义的ContentHandlerDecorator解析
pdf
,它使用sax事件来解析内容。我遇到了一个问题,当在
pdf
查看器
中
查看
pdf
时,它包含一个按行和列排列的数据表,但这些
信息
似乎不是从
PDF
中
开始
提取
的,或者是我不知道如何使用tika / sax找到它。2 END http:/
浏览 9
提问于2019-09-11
得票数 1
1
回答
将
PDF
中
的文本
提取
为JSON或XML或其他格式?
json
、
xml
、
pdf
我试图从
PDF
中
提取
数据,价格,
信息
和数字(我有超过10000个
PDF
,所以网站的免费试用将不起作用)。下面是我得到的一个
PDF
示例:我用Python语言(这类任务的初学者,还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过,但我只能得到这样的文本 所以可以
提取
价格,数字和
信息
,但我有不同的
pdf
格式,所以不可能只使用文本和一些算法来
提取
信息
。我想以垂直方式读
浏览 2
提问于2019-01-01
得票数 0
2
回答
将数据从
PDF
导入到SQL Server
c#
、
sql-server
、
pdf
我有一个
PDF
,其中有以下格式的行:我已经将
PDF
转换为Excel,但它没有给出正确的列结构。 如何将数据从
PDF
导入到SQL Server?或者,我如何在C#.Net
中
实现它?
浏览 1
提问于2014-09-15
得票数 0
1
回答
如何有效地从R格式的
PDF
中
提取
表格
数据?
r
、
pdf
、
tabular
我想使用R从成千上万的
PDF
文档中高效地
提取
表格
数据。我通常会将
PDF
数据转换为文本字符串,然后按位置
提取
信息
,但这些特定的表通常
缺少
数据,如下面的示例所示。缺失数据的位置因文档而异。
PDF
类型示例
浏览 0
提问于2020-09-07
得票数 0
3
回答
在Java中将
PDF
转换为Word
java
、
pdf
、
ms-word
可以在Java中将
PDF
转换为Word吗?我说的不是解析
PDF
文档,然后再将其自定义呈现给Word。我想要一个Java库,可以直接转换它。
浏览 0
提问于2010-11-04
得票数 4
7
回答
从
PDF
文件中
提取
文本
c#
、
java
、
pdf
我需要从
PDF
文件中
提取
文本。该文本可能是
表格
格式,它将用于外部方和我们的系统之间的数据自动传输。 有人能建议一个命令行工具(如
pdf
到txt)或者一个对此有好处的库吗?
浏览 18
提问于2009-08-14
得票数 7
回答已采纳
1
回答
如何使用Automation Anywhere从
pdf
中
提取
表格
数据并将其存储在csv/excel
中
?
pdf
、
rpa
、
automationanywhere
我想将
表格
数据从
pdf
提取
到excel/csv。如何使用Automation Anywhere执行此操作? 请在下面找到
pdf
文档
中
的样表。 ?
浏览 21
提问于2019-10-17
得票数 0
回答已采纳
2
回答
将
pdf
文件转换为excel
表格
c#
、
asp.net
、
excel
、
pdf
我是.net的新手,我有一个包含三个表的
pdf
(与购买细节)我的任务是
提取
所有的3个表从
pdf
和转换成一个excel表(三个excel表)使用c#代码。,我谷歌了3天,所有我能找到的是从
pdf
中
提取
文本的代码(但没有任何格式),我不能购买任何第三方工具,我需要一种方法,至少
提取
文本在适当的
表格
格式,然后我会转换成excel使用互操作,或一个代码直接转换成
浏览 5
提问于2013-09-29
得票数 1
2
回答
从
PDF
中
提取
表格
数据
pdf
、
pdftotext
、
pdf-to-html
是否有一致的方法从
PDF
文件中
提取
表格
?有工具吗? 如果“是”,对此的任何指
浏览 3
提问于2014-05-06
得票数 12
回答已采纳
2
回答
从
PDF
中
提取
表格
的tabula vs camelot
python
、
pdf
、
tabula
、
python-camelot
我需要从
pdf
中
提取
表格
,这些
表格
可以是任何类型的,多个标题,垂直标题,水平标题等。示例
PDF
: import tabulafor t in tab:print(t, "\n=========================\n") 卡梅洛特
浏览 3
提问于2020-04-23
得票数 4
回答已采纳
1
回答
如何使用python从
pdf
中
提取
单个行表数据?
python
、
pdf
、
ocr
、
python-camelot
、
tabula-py
我需要从pdfs中
提取
表格
数据。
pdf
中
的一些表只包含一行。我一直在尝试使用camelot库
提取
数据。使用Camelot
提取
代码:import camelottables = camelot.read_
pdf
(file,pages ="all")以上代码无法<em
浏览 18
提问于2022-11-22
得票数 -1
回答已采纳
1
回答
解析
pdf
中
的数据并使用GREP/awk/sed将其格式化为csv格式
bash
、
csv
、
awk
、
sed
、
grep
我有Ubuntu 18.04,正在使用GREP和pdftotext从
pdf
文件中
提取
信息
。我可以接近得到我想要的东西,但作为一个新手,我正在努力完善它。最终目标是将这些
信息
导出到excel或SQL
表格
中
,因此格式和
布局
至关重要。我使用awk和sed尝试直接转到csv,但最终得到的选项卡和空格并不整洁-更不用说以一种有用的方式进行规范化了。这些报告是多页的,其中包含一些我想解析出来并存储在csv文件
中
的
信息
。我可以成功地将
pdf
浏览 0
提问于2019-02-22
得票数 0
2
回答
将
PDF
转换为文本-保留
表格
行- Python
python
、
pdf
、
text
、
converter
我有
pdf
文档
中
的
表格
,我想将其转换为文本。我找到了以下代码,它可以将
pdf
转换为文本。但是,当它转换时,它不会将数据保留在正确的行
中
。它将所有内容放在一行长字符串
中
。当使用Python从
PDF
转换为文本时,有没有办法保留表
中
的行?PDFDocument, PDFParser from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_
pdf</e
浏览 0
提问于2012-03-07
得票数 2
1
回答
从
PDF
格式的嵌套表中
提取
数据
c#
、
pdf
、
ms-word
、
text-extraction
我有几个
pdf
文件是从word或excel文件
中
创建的。我需要获取表
中
的
信息
。文档
中
的文本不是图像,所以我能够使用pdfbox之类的工具
提取
文本。Iv‘e尝试了一些桌面工具,比如abby或solid
pdf
转换器,它们能够实现。要将这些文件转换成漂亮的word文档,但这不符合我的需要,因为我希望能够在C#
中
逐步完成这一任务。
浏览 3
提问于2010-08-20
得票数 3
2
回答
如何确定
PDF
是否被标记?
android
、
pdf
我如何知道
PDF
是否被标记?我正在开发一个程序,可以在
PDF
文件
中
复制一个文本并在我的应用程序
中
显示它,所以我尝试测试这个
PDF
文件,我从一个
PDF
文件(普通Copy+Paste)
中
复制了一个表,并将它粘贴到MS
中
。结果是没有
表格
的普通文本。当您从
pdf
文件
中
复制表并将其粘贴到Word
中
时,会出现一些问题,使其成为图像。这是真的吗?
浏览 6
提问于2012-10-04
得票数 2
回答已采纳
2
回答
从java读取大型.
pdf
文件的最佳API
java
、
sql
、
api
、
pdf
我有一个巨大的
pdf
文件(20mb/800页),其中包含一些
信息
。从Java
中
读取此类文件的最佳API是什么?
浏览 0
提问于2011-02-09
得票数 1
回答已采纳
1
回答
以图解方式注释
PDF
pdf
、
diagram
、
annotate
我想对
PDF
作实质性的说明。在我的特殊情况下,这个
PDF
将包含工资数据,但数据并不是分散的
表格
。如果是的话,注释就不重要了。 我想要注意的是数据片段,它引用了用于解析这些数据的算法。例如,员工的元数据--名称、SSN、帐号、工时、工资等--将在单个文档(主要是文档源)中一致分发,但在文档源中分布不同,有时在文档来源
中
也会有所不同(例如,Payroll可能会为不同的客户移动一些数据字段我会记下感兴趣的数据,不管我在解析数据模型
中
给它取了什么名字,它在页面上的相对位置等等。我想在网格线的末尾加上一个编号的网格
浏览 4
提问于2020-02-10
得票数 1
1
回答
如何使用Python
中
的tabula库从
pdf
中
提取
所有
表格
?
python-3.x
、
pdftotext
、
tabula
、
pdf-to-html
有没有人能建议一种方法,从
pdf
中
提取
所有的表,里面填满了值?
浏览 33
提问于2018-06-19
得票数 0
1
回答
PDFBox :从表中
提取
数据
java
、
pdfbox
、
extraction
如何使用pdfbox从
pdf
格式的
表格
中
提取
数据?在这个过程
中
,使用PDContentStream和PageStripper classes.Index可以找到文本和内容的索引,必须找到表
中
的行,有人可以帮助扩展哪个类和实现哪个方法吗?我尝试了以下方法来
提取
文本的起始索引: public static void main(String args[]) throws IOException{ BufferedWriter
浏览 0
提问于2016-06-30
得票数 3
2
回答
Computer Vision 2.0
PDF
转文本不起作用
azure
、
pdf
、
computer-vision
、
azure-cognitive-services
我正在尝试使用Computer Vision 2.0解析
PDF
文件
中
的文本。我正在遵循应用程序,并已将MediaTypeHeaderValue更改为“example /
pdf
”。如何使用计算机视觉处理
PDF
文件?
浏览 24
提问于2020-08-20
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么提取pdf中的表格?转换的方法有这些
excel表格中的身份证信息如何快速提取
从多个PDF格式的发票中提取需要的信息,整理成excel表格
Python新工具:用三行代码提取PDF表格数据
PDF文件如何转Excel?推荐4款超好用的转换工具,用过都说好
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券