文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用pdfbox解析包含表格格式数据的pdf

问如何使用pdfbox解析包含表格格式数据的pdf
EN

Stack Overflow用户

提问于 2013-01-15 15:21:58

回答 2查看 3.7K关注 0票数 5

谁能帮助我如何提取表格数据使用itext或pdfbox，我有一个有1000页的pdf，我的工作是解析pdf并将数据存储到数据库中。

java

parsing

pdf

web-applications

itext

回答 2

Stack Overflow用户

发布于 2013-01-15 16:07:54

PDF不包含任何表结构元素，除非它包含用于定义表的其他XML。否则就没有结构。我写了一个关于如何找出答案的blog article。

一些工具，如PdfBox，将努力猜测表格，但它可能会命中或错过

票数 4

Stack Overflow用户

发布于 2014-02-18 21:26:13

您可以使用以下代码以字符串格式提取数据：

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后，您可以使用java正则表达式逐行解析并将值加载到java POJO bean中。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/14332868

复制

相似问题

问如何使用pdfbox解析包含表格格式数据的pdf
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pdfbox解析包含表格格式数据的pdfEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pdfbox解析包含表格格式数据的pdf
EN