谁能帮助我如何提取表格数据使用itext或pdfbox,我有一个有1000页的pdf,我的工作是解析pdf并将数据存储到数据库中。
发布于 2013-01-15 16:07:54
PDF不包含任何表结构元素,除非它包含用于定义表的其他XML。否则就没有结构。我写了一个关于如何找出答案的blog article。
一些工具,如PdfBox,将努力猜测表格,但它可能会命中或错过
发布于 2014-02-18 21:26:13
您可以使用以下代码以字符串格式提取数据:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
然后,您可以使用java正则表达式逐行解析并将值加载到java POJO bean中。
https://stackoverflow.com/questions/14332868
复制相似问题