首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用pdfbox解析包含表格格式数据的pdf

如何使用pdfbox解析包含表格格式数据的pdf
EN

Stack Overflow用户
提问于 2013-01-15 15:21:58
回答 2查看 3.7K关注 0票数 5

谁能帮助我如何提取表格数据使用itext或pdfbox,我有一个有1000页的pdf,我的工作是解析pdf并将数据存储到数据库中。

EN

回答 2

Stack Overflow用户

发布于 2013-01-15 16:07:54

PDF不包含任何表结构元素,除非它包含用于定义表的其他XML。否则就没有结构。我写了一个关于如何找出答案的blog article

一些工具,如PdfBox,将努力猜测表格,但它可能会命中或错过

票数 4
EN

Stack Overflow用户

发布于 2014-02-18 21:26:13

您可以使用以下代码以字符串格式提取数据:

代码语言:javascript
运行
复制
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后,您可以使用java正则表达式逐行解析并将值加载到java POJO bean中。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14332868

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档